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概率 图 模型 结合 了 概率 论 与 图 论 的 知识 ， 提 供 了 一 种 简单 的 可 视 化 概率 模型 
的 方法 ， 在 人 工 智能 、 机 器 学 习 和 计算 机 视觉 等 领域 有 着 广阔 的 应 用 前 景 。 本 书 
则 在 帮助 读者 学 习 使 用 概率 图 模型 ， 理 解 计算 机 如 何 通过 贝 叶 斯 模型 和 马尔 科 夫 
模型 来 解决 现实 世界 的 问题 ， 同 时 教会 读者 选择 合适 的 R 语言 程序 包 、 合 适 的 
算法 来 准备 数据 并 建立 模型 。 本 书 适合 各行 业 的 数据 科学 家 、 机 器 学 习 爱 好 者 和 
工程 师 等 人 群 阅读 、 使 用 。 
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魏 博 ， 志 诺 维 思 《〈 北 京 ) 基因 科技 有 限 公司 高 级 算法 工程 师 。 本 科 毕 业 于 
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El 




















审 篱 者 简介 
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统计 咨询 行业 有 广泛 的 业务 ， 并 有 大 量 的 R 开发 经 验 。 他 的 兴趣 3 
算 方面 。 他 之 前 审阅 了 Packt 出 版 社 的 



































要 在 统计 计 


书籍 R Studio for R Statistical Computing 


(Mark PJ. van der Loo 和 Edwin de Jonge); R Statistical Application Development by 


Example Beginner s Guide (Prabhanjan Narayanachar Tattar); Machine Learning with 


R (Brett Lantz); R Graph Essentials (David Alexandra Lillis); R Object-oriented 


Programming (Kelly Black); Mastering Scientific Computing with R (Paul Gerrard 


和 Radia Johnson ); Mastering Data Analysis with R (Gergely Dar6cz )。 























Prabhanjan Tattar 现在 是 Fractal Analytics 公司 的 高 级 数据 科学 家 。 他 拥有 8 








年 的 统计 分 析 经 验 。 生 存 分 析 和 统计 反 














E 靳 是 他 的 主要 科 而 


























评审 的 期 刊 上 发 表 了 多 篇 科研 论文 ， 并 撰写 了 两 本 R 语言 





和 兴趣 方向 。 他 在 同行 
PB 籍 ，《R 语言 统计 应 


用 开发 实例 》(R Statistical Application Development by Example, Packt Publishing) 
和 《R 语 言 统 计 教 程 》(4 Course in Statistics with R, Wiley)。R 程序 包 gpk、 











RSADBE 和 ACSWR 也 是 由 他 维护 的 。 























前 可 


概率 图 模型 是 机 器 学 习 领 域 表 示 现 实 世界 带 有 概率 信息 的 数据 和 模型 的 最 先 
进 技术 之 一 。 在 许多 场景 中 ， 概 率 图 模型 使 用 贝 叶 斯 方法 来 描述 算法 ， 以 便 可 以 








从 带 有 噪声 和 不 确定 性 的 现实 世界 中 得 出 结论 。 



























































本 书 介绍 了 一 些 相关 话题 ， 例 如 推断 (自动 推理 和 学 习 )， 可 以 自动 从 


















































数据 中 构建 模型 。 它 解释 了 算法 是 如 何 逐 步 运 行 的 ， 并 使 用 诸多 示例 展示 ] 
可 用 的 及 语言 解决 方案 。 介 绍 完 概 率 和 贝 叶 斯 公式 的 基本 原理 之 后 ， 本 书 给 出 

















了 概率 图 模型 (Probabilistic Graphical Models，PGM)， 以 及 几 种 类 型 的 推 





























学 习 算 法 。 读 者 会 从 算法 设计 过 渡 到 模型 的 自动 拟 合 。 
本 书 关注 在 解决 数据 科学 问题 上 有 成 功 案 例 的 有 用 模型 ， 例 如 贝 叶 斯 分 类 
器 、 混 合 模型 、 贝 叶 斯 线性 回归 ， 以 及 用 于 构建 复杂 模型 的 基本 模型 组 件 。 





主要 内 容 


第 1 章 ， 概 率 推理 ， 介 





NS 




















了 概率 论 和 概率 图 模型 的 基本 概念 ， 并 通过 贝 












































公式 的 表示 ， 为 概率 模型 提供 





一 种 易 用 、 高 效 、 简 单 的 建 模 方法 。 




















第 2 章 ， 精 确 推 凯 ， 介 2 

















了 如 何 通过 简单 图 形 的 组 合 和 模型 查询 构建 概 











模型 。 该 查询 使 用 一 种 叫 作 联结 树 算法 的 精确 推断 算法 。 











第 3 章 ， 学 习 参 数 ,包括 从 数据 集中 使 
第 4 章 ， 贝 叶 斯 建 模 一 一 基础 模型 , 介绍 了 简单 而 强大 的 贝 叶 斯 模型 ， 
































最 大 似 然 法 ， 拟 合 和 学 习 概 率 图 模型 。 


原始 
即时 





类 和 
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率 图 























以 作为 更 加 复杂 模型 的 基础 模块 ， 以 及 如 何 使 用 自 适应 算法 来 拟 合 和 查询 贝 


模型 。 











第 5 章 ， 近 似 推断 , 介绍 了 概率 图 模型 上 的 第 三 种 推 凯 方 法 ， 同 时 介 












































叶 斯 


了 主 





要 的 采样 算法 ， 例 如 马尔 科 夫 链 蒙 特 卡 洛 (MCMC)。 





第 6 章 ， 贝 叶 斯 建 模 























线性 模型 ， 介 绍 了 更 高 级 贝 叶 斯 视角 的 标准 线 








性 回 





出 噩 


归 算 法 ， 并 给 出 了 解决 过 拟 合 问题 的 解决 方案 。 








种 简单 模型 的 混合 。 


附录 ， 介 绍 了 本 书 所 引用 的 所 有 书籍 和 文献 。 











环境 准备 








第 7 章 ， 概 率 混 合 模型 , 介绍 了 更 加 复杂 的 概率 模型 ， 其 中 的 数据 来 自 于 几 


本 书 的 所 有 例子 都 需要 版 本 在 3.0 以 上 的 R 环境 中 运行 。 





本 书 受众 














本 书面 向 需要 处 理 海量 数据 ， 并 从 中 得 出 结论 的 读者 ， 尤 其 是 当 数 据 有 噪声 
或 者 存在 不 确定 性 的 读者 。 数 据 科学 家 、 机 器 学 习 爱好 者 、 工 程 师 和 其 他 对 机 器 
学 习 最 新 技术 感 兴趣 的 人 会 觉得 概率 图 模型 很 有 意思 。 























读者 反馈 




















欢迎 读者 反馈 。 让 我 们 知道 你 关于 这 本 书 的 想法 一 一 喜欢 什么 ， 不 喜欢 什 
么 。 读 者 反馈 对 于 我 们 很 重要 ， 它 可 以 帮助 我 们 开发 读者 真正 需要 的 话题 。 想 给 
我 们 发 送 反馈 ， 只 需要 发 电子 邮件 至 feedback@packtpub.com， 并 在 邮件 主题 中 




































































告知 书 名 。 如 果 你 是 茶 个 话题 的 专家 ， 并 且 有 兴趣 编写 书籍 或 者 给 予 贡献 ， 请 查 








看 我 们 的 作者 指导 : www.packtpub.com/authors。 





客户 支持 











你 现在 已 经 是 Packt 书籍 的 荣誉 所 有 者 。 你 还 和 








I 有 以 下 权利 。 

















下 载 示例 代码 


你 可 以 从 http:/www.packtpub.com 的 个 人 账户 中 下 载 本 书 的 示例 代码 文件 。 
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出 吾 





如 果 你 是 从 别 的 地 方 购买 的 本 书 ， 你 可 以 访问 http://www.packtpub.com/support， 在 
此 网 站 注册 后 ， 会 直接 发 邮件 给 你 代码 文件 。 你 可 以 通过 下 列 步 又 下 载 代码 文件 : 


1. 使 用 你 的 邮箱 和 密码 在 我 们 的 网 站 登录 并 注册 ; 



























































2. 在 顶部 的 SUPPORT 标签 上 悬 停 光 标 ; 





3. 单 击 Code Downloads & Errata ; 
4. 在 Search 框 中 输入 书 名 ; 
5. 选取 代码 文件 所 在 的 书籍 ; 


6. 选择 购书 途径 的 下 拉 菜 单 ; 











7. 单 击 Code Download。 


你 也 可 以 在 本 书 网 站 的 页 面 单 击 Code Files 按钮 下 载 代码 文件 。 这 本 书 的 网 
页 可 以 通过 Search 搜索 框 输入 书 名 找到 。 你 需要 登录 自己 的 Packt 账户 。 


文件 下 载 完 成 之 后 ， 确 保 使 用 下 列 软件 的 最 新 版 解压 或 抽取 文件 : 





















































@ Windows 系统 使 用 WinRAR /7-Zip。 
@ Mac 系统 使 用 Zipeg / iZip/ UnRarX。 
@ Linux 系统 使 用 7-Zip / PeaZip。 
























































尽 





管 我 们 已 经 非常 细心 地 保证 内 容 的 正确 性 ， 但 是 错误 还 是 会 发 生 。 如 果 
你 在 我 们 的 书 中 找到 一 处 错误 并 告诉 我 们 ， 不 管 是 文本 错误 或 是 代码 错误 ， 我 们 
都 会 非常 感激 。 你 的 善举 会 省 去 其 他 用 户 的 烦恼 ， 并 帮助 我 们 改进 本 书 的 后 续 版 
本 。 如 果 你 找到 了 任何 勤 误 ， 请 访问 https://www.packtpub.com/submit-errata 报告 
给 我 们 。 你 只 须 选 取 书 名 ， 单 击 Errata Submission Form 链接 ， 输 入 勘误 的 具体 
信息 。 一 旦 勘误 确定 之 后 ， 我 们 会 接受 你 的 提交 。 勘 误会 上 传 到 我 们 的 网 站 ， 或 
者 添加 到 书籍 勘误 部 分 已 有 的 勘误 列表 下 。 要 查看 以 前 提交 的 勘误 ， 访 问 https:// 
www.packtpub.com/books/content/support， 在 搜索 框 输入 书 名 、 所 需 信 息 会 出 现 
在 Errata 部 分 下 。 
























































































































































版 权 

互联 网 上 版 权 资料 的 盗版 问题 一 直 是 所 有 媒介 无 法 避免 的 问题 。 在 Packt， 
我 们 一 直 严肃 对 竺 版权 和 许可 的 保护 问题 。 如 果 你 在 互联 网 上 遇 到 任何 形式 的 我 
社 出 版 物 的 非法 副本 ， 请 立即 把 具体 地 址 或 者 网 站 名 称 提 供给 我 们 ， 我 们 可 以 采 
取 补 救 措施 。 请 联系 copyright@packtpub.com， 附 上 可 疑 的 盗版 材料 的 链接 。 我 们 
非常 感谢 你 在 保护 作者 方面 的 努力 ， 也 会 注重 提升 自我 能 力 ， 给 你 带 来 更 有 价值 
的 内 容 。 





















































疾 


问 
如 果 你 对 本 书 有 任何 疑问 ， 可 以 联系 我 们 questions@packtpub.com。 我 们 会 
尽 全 力 解 决 您 的 问题 。 











三 村 
ds 
Ei 


在 有 关 21 世纪 的 所 有 预测 中 ， 最 不 希望 的 一 个 也 许 是 我 们 需要 每 天 收集 世 
界 上 任何 地 方 、 关 于 任何 事情 的 海量 数据 。 近 几 年 来 ， 人 们 见证 了 关于 世界 、 
生活 和 技术 方面 难以 置信 的 数据 爆炸 ， 这 也 是 我 们 确信 引发 变革 的 源 动力 。 虽 
然 我 们 生活 在 信息 时 代 ， 但 是 仅仅 收集 数据 而 不 发 掘 价值 和 抽取 知识 是 没有 任 
何 意义 的 。 


在 20 世纪 开始 的 时 候 ， 随 着 统计 学 的 诞生 ， 世 界 都 在 收集 数据 和 生成 统计 。 
那个 时 候 ， 唯 一 可 靠 的 工具 是 铅笔 和 纸张 ， 当 然 还 有 观察 者 的 眼睛 和 耳 杀 。 虽 然 
在 19 世纪 取得 了 长 足 的 发 展 ， 但 是 科学 观察 依然 处 在 新 生 阶 段 。 


100 多 年 后 ， 我 们 有 了 计算 机 、 电 子 感应 器 以 及 大 规模 数据 存储 。 我 们 不 但 
可 以 持续 地 保存 物理 世界 的 数据 ， 还 可 以 通过 社交 网 络 、 因 特 网 和 移动 电话 保存 
我 们 的 生活 数据 。 而 且 ， 存 储 技术 水 准 的 极 大 提高 也 使 得 以 很 小 的 容量 存储 月 度 
数据 成 为 可 能 ， 甚 至 可 以 将 其 放 进 手掌 中 。 

但 是 存储 数据 不 是 获取 知识 。 存 储 数据 只 是 把 数据 放 在 某 个 地 方 以 便 后 用 。 
同样 ， 随 着 存储 容量 的 快速 演化 ， 现 代 计 算 机 的 容量 甚至 在 以 难以 置信 的 速度 提 
升 。 在 读 博 士 期 间 ， 我 记得 当 我 收 到 一 个 维新 、 泡 眼 的 全 功能 PC 来 开展 科研 工 
作 时 ， 我 在 试验 室 是 多 么 的 骄傲 。 而 今天 ， 我 口袋 里 老 旧 的 智能 手机 ， 还 要 比 当 
时 的 PC 快 20 倍 。 

在 本 书 中 ， 你 会 学 到 把 数据 转化 为 知识 的 最 先进 的 技术 之 一 : 机 器 学 习 。 这 
项 技术 用 在 当今 生活 的 方方面面 ， 从 搜索 引擎 到 股市 预测 ， 从 语音 识别 到 自动 轰 
驶 。 而 且 ， 机 器 学 习 还 用 在 了 人 们 深信 不 疑 的 领域 ， 从 产品 链 的 质量 保障 到 移动 
手机 网 络 的 天 线 阵 列 优化 。 


机 器 学 习 是 计算 机 科学 、 概 率 论 和 统计 学 相互 融合 的 领域 。 机 器 学 习 的 核心 



















































































































































































































































































































































































第 1 章 概率 推理 


问题 
了 机 器 学 习 的 两 个 基础 
只 的 算法 设计 
6 蒙 - 拉 普 拉 斯 (Pierre-Simon Laplace，1749 一 1827)， 法 
大 的 科学 家 之 一 ， 被 认为 是 第 一 批 理 解数 据 收集 
他 发 现 了 数据 不 可 靠 ， 有 不 确定 性 ， 也 就 是 
概率 来 处 理 不 确定 性 等 问题 ， 并 表示 事 伯 

在 他 的 论文 《概率 的 哲学 》(Essai philosophique sur les probabilités，1814) 
中 ， 拉 羡 拉 斯 给 出 了 最 初 的 支持 新 老 数据 
的 时 候 得 到 更 新 和 改进 。 


和 使 用 这 些 知 i 
皮 埃 尔 - 
也 是 有 史 以 来 最 伯 


使 











三 十” 








A 人 


























新 数据 可 用 

































































1 问题 























天 说 的 有 噪声 。 


些 : 学习 和 推断 。 




























































































或 信息 信念 度 的 人 。 





























断 问 题 或 者 说 是 如 何 使 用 数据 和 例子 生成 知识 或 预测 。 这 也 给 我 们 带 来 
从 大 量 数据 中 抽取 模 以 及 高 层级 知识 的 算法 设计 ， 





国 数学 家 ， 
要 性 的 人 : 
他 也 是 第 一 个 研究 


言 念 会 在 


理 的 数学 系统 ， 其 中 的 用 户 1 


今天 我 们 称 之 为 贝 叶 斯 推理 。 事 实 上 ， 托 马 


斯 : 贝 叶 斯 确实 是 第 一 个 、 早 在 18 世纪 末 就 发 现 这 个 定理 的 人 。 如 果 没 有 贝 叶 


斯 工作 的 铺垫 ， 皮 埃 尔 - 西蒙 : 拉 普 拉 斯 就 需要 
LE 论 的 现代 形式 。 有 意 
并 承认 了 贝 叶 斯 是 第 
E， 而 不 是 贝 叶 斯 推理 ， 


(Bayes-Price-Laplace Theorem )。 


一 个 多 世纪 以 后 ， 这 项 数学 技术 多 亏 了 计算 概率 论 的 新 发 现 而 得 到 重生 ， 并 
生 了 机 器 学 习 中 一 个 最 重要 、 最 和 常用 的 技术 : 概率 图 模型 。 
从 此 刻 开 始 ， 我 们 需要 记 
有 边 和 点 的 数学 对 象 ， 而 不 
对 象 或 者 实体 之 间 日 
简明 易 懂 的 方法 ， 


叶 斯 开 
文章 ， 
及 拉 普 拉 斯 推 到 


诞 

































































萌 述 不 同 变 量 之 间 
信 或 者 一 些 不 确定 


























数学 方法 。 


新 发 现 同一 个 定理 ， 
























































模型 中 的 术语 图 指 的 是 
。 众 所 周知 ， 当 你 想 给 别人 解释 不 同 
画 出 带 有 连 线 或 箭头 的 方 框 。 
可 以 来 介绍 任何 不 同 元 素 之 间 的 关系 。 


确切 地 说 ， 概 率 图 模型 (Probabilistic Graphical Models，PGM) 是 指 : 你 想 











的 关系 时 ， 

















并 形成 由 
思 的 是 ， 拉 普 拉 斯 最 终 发 现 了 贝 叶 斯 过 世 之 后 发 表 的 


E 理 系统 原理 的 人 。 今 天 ， 我 们 会 提 




















并 称 之 为 贝 叶 斯 - 普 莱 斯 - 拉 普 拉 斯 定理 





























的 关系 ， 但 是 ， 你 又 对 这 些 变量 不 太 确 


图 论 ， 也 就 是 带 





























的 知识 。 现 在 我 们 知道 ， 概 率 是 表示 和 处 理 

















概率 图 模型 是 使 用 概率 来 表示 关于 事实 和 








有 具 


这 





它 也 是 现在 最 4 





HH 











定 ， 只 有 一 定 


不 确定 怕 





























这 是 一 种 


程度 的 相 
的 严密 的 


的 信念 和 不 确定 知识 的 一 种 工 











Et 进 的 机 器 学 习 技 术 之 


| 





很 多 行业 成 功 的 案例 。 





1.1 机 器 学 习 


概率 图 模型 可 以 处 理 关 于 世界 的 不 完整 的 知识 ， 因 为 我 们 的 知识 总 是 有 限 
的 。 我 们 不 可 能 观察 到 所 有 的 事情 ， 不 可 能 用 一 台 计 算 机 表示 整个 宇 害 。 和 计算 
机 相 比 ， 我 们 作为 人 类 从 根本 上 是 受 限 的 。 有 了 概率 图 模型 ， 我 们 可 以 构建 简单 
的 学 习 算 法 ， 或 者 复杂 的 专家 系统 。 有 了 新 的 数据 ， 我 们 可 以 改进 这 些 模型 ， 尽 
全 力 优化 模型 ， 也 可 以 对 未 知 的 局 势 和 事件 做 出 推断 或 预测 。 


在 第 1 章 中 ， 你 会 学 到 关于 概率 图 模型 的 基础 知识 ， 也 就 是 概率 知识 和 简 
单 的 计算 规则 。 我 们 会 提供 一 个 概率 图 模型 的 能 力 概 览 ， 以 及 相关 的 R 程序 包 。 
这 些 程序 包 都 很 成 功 ， 我 们 只 需要 探讨 最 重要 的 R 程序 包 。 


我 们 会 看 到 如 何 一 步 一 步 地 开发 简单 模型 ， 就 像 方块 游戏 一 样 ， 以 及 如 何 把 
这 行 模型 连接 在 一 起 开发 出 更 加 复杂 的 专家 系统 。 我 们 会 介绍 下 列 概念 和 应 用 。 
每 一 部 分 都 包含 几 个 可 以 直接 用 了 语言 上 手 的 示例 : 
机 器 学 习 。 
使 用 概率 表示 不 确定 性 。 
概率 专家 系统 的 思想 。 
使 用 图 来 表示 知识 。 
概率 图 模型 。 
示例 和 应 用 。 





















































































































































1.1 机 器 学 习 

本 书 是 关于 机 器 学 习 领 域 的 书籍 ， 或 者 更 广义 地 叫 作 人 工 智 能 。 为 了 完成 
任务 ， 或 者 从 数据 中 得 出 结论 ， 计 算 机 以 及 其 他 生物 需要 观察 和 处 理 自然 世界 的 
各 种 信息 。 从 长 期 来 看 ， 我 们 一 直 在 设计 和 发 明 各 种 算法 和 系统 ， 来 非常 精准 地 
并 以 非凡 的 速度 解决 问题 。 但 是 所 有 的 算法 都 受 限于 所 面向 的 具体 任务 本 身 。 另 
外 ， 一 般 生 物 和 人 类 《以 及 许多 其 他 动物 ) 展现 了 在 通过 经 验 、 错 误 和 对 世界 的 
观察 等 方式 取得 适应 和 进化 方面 令 人 不 可 思议 的 能 力 。 

试图 理解 如 何 从 经 验 中 学 习 ， 并 适应 变化 的 环境 一 直 是 科学 界 的 伟大 课题 。 
自从 计算 机 发 明之 后 ， 一 个 主要 的 目标 是 在 机 器 上 重复 生成 这 些 技能 。 

机 器 学 习 是 关于 从 数据 和 观察 中 学 习 和 适应 的 算法 研究 ， 并 实现 推理 和 借 






















































































































































































第 1 章 概率 推理 




















助 学 到 的 模型 和 算法 来 执行 任务 
个 意义 上 讲 ， 即 便 是 最 简 


更 是 最 简单 的 观 
需要 一 套 理论 来 解决 这 些 不 确定 
基础 。 


但 是 当 数 据 量 逐 渐 增 长 为 非常 大 的 数据 集 时 ， 即 便 是 最 简单 的 概率 问题 也 会 
变 得 棘手 。 我 们 需要 一 套 框架 文 持 面向 现实 世界 问题 复杂 度 的 模型 和 算法 的 便捷 
开发 。 
说 到 现实 世界 的 问题 ， 我 们 可 以 设想 一 些 人 类 可 以 完成 的 任务 ， 例 如 理解 人 
语言 、 开 车 、 股 票 交 易 、 识 别 画 中 的 人 脸 或 者 完成 医疗 诊断 等 。 
在 人 工 智 能 的 早期 ， 构 建 这 样 的 模型 和 算法 是 一 项 非常 复杂 的 任务 。 每 次 产 
生 的 新 算法 ， 其 实现 和 规划 总 是 带 着 内 在 的 错误 和 偏差 。 本 书 给 出 的 框架 ， 叫 
FE 概率 图 模型 ， 导 在 区 分 模型 设计 任务 和 算法 实现 任务 。 因 为 ， 这 项 技术 基于 概 
率 论 和 图 论 ， 因 此 它 拥 有 坚实 的 数学 基础 。 但 是 同时 ， 这 种 框架 也 不 需要 实践 者 
直 
了 


。 由 于 我 们 生活 的 世界 本 身 就 是 不 确定 的 ， 从 这 
察 ， 例 如 天 空 的 颜色 也 不 可 能 绝对 的 确定 。 我 们 
性 。 最 自然 的 方法 是 概率 论 ， 它 也 是 本 书 的 数学 
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[编写 或 者 重 写 算法 ， 因 为 算法 是 针对 非常 原生 的 问题 而 设计 的 ， 并 且 已 经 存 

















同时 ， 概 率 图 模型 基于 机 器 学 习 技术 ， 它 有 利于 实践 人 员 从 数据 中 以 最 简单 
的 方式 创造 新 的 模型 。 

概率 图 模型 中 的 算法 可 以 从 数据 中 学 到 新 的 模型 ， 并 使 用 这 些 数据 和 模型 台 
答 相关 问题 ， 当 然 也 可 以 在 有 新 数据 的 时 候 改 进 模 型 。 

在 本 书 中 ， 我 们 也 会 看 到 概率 图 模型 是 我 们 熟知 的 许多 标准 和 经 典 模型 的 数 
学 泛 化 ， 并 允许 我 们 复 用 、 混 合 和 修改 这 些 模型 。 

本 章 的 其 他 部 分 会 介绍 概率 论 和 图 论 所 需 的 概念 ， 帮 助 读者 理解 和 使 用 及 
语言 概率 图 模型 。 



















































































1.2 ”使 用 概率 表示 不 确定 性 
概率 图 模型 ， 从 数学 的 角度 看 ， 是 一 种 表示 几 个 变量 概率 分 布 的 方法 ， 也 
叫 作 联 春 祁 雍 苏 而， 换 名 话说 ， 它 是 一 种 表示 几 个 变量 共同 出 现 的 数值 信念 的 工 






















































































到 几 百 万 个 。 在 这 一 部 分 里 ， 我 们 会 回 
本 实现 。 如 果 你 对 这 些 内 容 很 熟悉 ， 你 可 以 跳 过 这 一 部 分 。 

















的 计算 。 


概率 是 表示 人 们 对 了 
本 概念 。 接 着 ， 我 们 
最 后 ， 我 们 会 讨论 本 书 的 
我 之 前 说 过 贝 叶 斯 推断 是 本 书 的 主要 鹿 








会 介 


会 介绍 贝 叶 斯 模型 的 基础 构建 模块 ， 
5 题 : 贝 叶 斯 推 呆 。 




















贝 叶 斯 推断 ， 或 者 换 句 计 
前 沿 技术 。 


更 新 概率 模型 的 原理 首先 
































事实 和 事 伯 











a 和 要 
FE 要 1 





1.2 ”使 用 概率 表示 不 确定 性 











其。 基于 这 种 理解 ， 虽 然 概 率 图 模型 看 起 来 很 简单 ， 但 是 概率 图 模型 强调 的 是 对 
于 许多 变量 概率 分 布 的 表示 。 在 某 些 情况 下 ,“ 许 多 ”意味 着 大 量 
































顾 概率 图 模型 的 基本 概念 和 R 语言 的 基 


上}: 信念 的 优良 工具 ， 然 后 我 介 

















x 比如 上 几 千 个 

















我 们 首先 研究 为 什么 
] 会 介绍 概率 积分 的 基 
































5 题 吗 ? 的 确 ， 















































是 日 





日 托马斯 贝 叶 斯 发 现 的 ， 并 由 他 的 朋友 普 莱 





并 做 一 些 简单 而 有 意思 














概率 图 模型 也 是 执行 








说， 是 从 先前 信念 和 新 数据 中 计算 新 的 事实 和 结论 的 




















斯 于 1763 年 发 表 在 著名 的 论文 《 论 机 会 主义 下 的 问题 解决 》( An Essay toward 


solving a Problem in the Doctrine of Chances ) 中 。 


1.2.1 


正如 皮 埃 尔 
工具 。 有 意思 的 是 ， 在 机 器 学 习 的 
到 机 器 上 ， 也 就 是 计算 机 上 。 借 助 算法 ， 











信念 和 不 确定 性 的 概率 表示 


Probability theory is nothing but common sense reduced to calculation 











率 表示 自己 的 信念 。 


证 我 们 举 一 个 众人 熟知 的 例子 : 掷 人 硬币 游 戏 。 硬 币 正二 





习 





Théorie analytique des probabilités, 1821. 


[= 入 三 } 


Pierre-Simon, marguis ae Laplace 





- 西蒙 拉 普 拉 斯 所 说 ， 概 率 是 一 种 量化 常识 推理 和 信念 程度 的 








月 乐 























计算 机 会 对 确 




















言 念 这 一 概念 已 经 被 不 知 不 觉 地 扩展 
定 的 事实 和 事件 ， 通 过 概 














或 者 反面 向 上 的 概率 

















或 机 会 是 多 少 ? 大 家 都 应 该 回答 是 50% 的 机 会 或 者 0.5 的 概率 ( 记 住 ， 概 率 是 0 


和 1 之 i 





司 的 数 )。 

















这 个 简单 的 记 法 有 两 种 


次 数 反 面向 上 。 使 用 数字 的 话 ， 硬 























里 解 。 
第 一 种 频率 派 的 意思 是 如 果 我 们 投掷 多 次 ， 长 期 来 看 一 半 次 数 正面 向 上 ， 另 一 半 
6 有 50% 的 机 会 一 面 朝 上 ， 或 者 概率 为 0.5。 





种 是 频率 派 解 释 ， 另 一 种 是 贝 叶 斯 派 解 释 。 
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第 1 章 概率 推理 





然而 ， 频 率 派 的 思 

















果 你 投手 一 枚 硬币 ， 


术 











想 ， 正 如 它 的 名 字 ， 只 在 试验 可 以 重复 非常 多 的 次 数 时 才 有 
效 。 如 果 只 观察 到 一 两 次 事实 ， 讨 论 频率 就 没有 意义 了 。 相 反 ， 贝 叶 斯 派 的 理解 
把 因素 或 事件 的 不 确定 性 通过 指认 数值 (0 ~ 1 或 者 0% ~ 100%) 来 量化 。 如 
即使 在 投掷 之 前 ， 你 也 背 定 会 给 每 个 面 指认 50% 的 机 会 。 














如 果 你 观看 10 匹 马 的 赛马 ， 而 且 对 马匹 和 骑手 一 无 所 知 ， 你 也 肯定 会 给 每 匹 马 
指认 0.1 (或 者 10%) 的 概率 。 

投掷 硬币 是 一 类 可 以 重复 多 次 ， 甚 至 上 千 次 或 任意 次 的 试验 。 然 而 ， 赛 马 并 
不 是 可 以 重复 多 次 的 试验 。 你 最 喜欢 的 团队 赢得 下 次 球赛 的 概率 是 多 少 ? 这 也 不 
是 可 以 重复 多 次 的 试验 : 事实 上 ， 你 只 可 以 试验 一 次 ， 因 为 只 有 一 次 比赛 。 但 是 


























信 你 的 团队 会 拿 下 下 一 次 比赛 。 
贝 叶 斯 派 思 想 的 主要 优势 是 它 不 需要 长 期 频率 或 者 同一 个 试验 的 重复 。 
在 机 器 学 习 中 ， 概 率 是 大 部 分 系统 和 算法 的 基础 部 件 。 你 可 能 想 知道 收 到 的 











邮件 是 垃圾 由 



































b 件 的 概率 。 你 可 
个 商品 的 概率 《以 及 你 的 网 > 






































由 于 你 非常 相信 你 的 团队 是 今年 最 厉害 的 ， 你 会 指认 一 个 概率 ， 例 如 0.9， 来 确 

















能 想 知 道 在 线 网 站 下 一 个 客户 购买 上 一 个 客户 同一 
6 是否 应 该 立刻 给 它 打 广告 的 概率 )。 你 也 想 知 道 下 





个 月 你 的 商铺 拥有 和 这 个 月 同样 多 客户 的 概率 。 








从 这 些 例子 可 








以 看 出 ， 完 全 频率 派 和 完全 贝 叶 
晰 。 好 消息 是 不 论 你 选择 哪 一 种 型 





1.2.2 ”条件 概率 
机 器 学 习 尤其 是 概率 图 模型 的 核心 是 条 件 概率 的 思想 。 事 实 上 ， 准 确 地 说 ， 


概率 图 模型 都 是 条 件 概率 的 ， 
手 和 马匹 一 无 所 知 ， 你 可 以 给 每 一 匹 马 〈 假 定 有 10 
你 知道 这 个 国家 最 好 的 骑手 也 参加 了 这 项 赛事 。 你 还 会 给 这 些 骑手 指认 相同 的 机 














会 吗 ? 当然 不 能 ! 因此 这 个 骑手 获胜 


的 概率 只 




















f 9%6。 这 就 是 条 件 概率 ; 





思想 。 让 我 们 





回 到 赛马 的 例子 。 我 们 说 ， 如 果 你 对 骑 


的 概率 可 
也 就 是 基于 已 知 其 他 事件 的 结果 ， 当 前 事件 





























斯 派 之 间 的 界限 远 远 不 够 清 








E 解 ， 概 率 计算 的 规则 是 完全 相同 的 。 




















匹 马 ) 指认 0.1 的 概率 。 现 在 ， 























能 是 19%， 进 而 所 有 其 他 骑手 获胜 



























































的 概率 。 这 种 概率 的 思想 可 以 完美 


也 解释 改变 直觉 认识 或 者 《更 技术 性 的 描述 ) 


























给 定 新 的 信息 来 更 新 信念 。 


的 场景 中 。 














概率 图 模型 就 是 关注 这 些 技术 ， 只 是 放 在 了 更 加 复杂 








| 


1.2.3 ”概率 计算 和 随机 变量 
在 之 前 的 部 分 ， 我 们 看 到 了 为 什么 概率 是 表示 不 确 






































或 事实 频率 的 优良 工具 。 我 们 也 提 到 了 不 管 是 贝 叶 斯 派 还 是 频率 派 ， 
概率 计算 规则 是 相同 的 。 在 本 部 分 中 ， 我 们 首先 回顾 概率 计算 规则 ， 并 介 2 









































1.2 ”使 用 概率 表示 不 确定 性 











变量 的 概念 。 它 是 贝 叶 斯 推理 和 概率 图 模型 的 核心 概念 。 











样本 空间 ， 事 件 和 概率 





上 定性 或 者 信念， 


在 这 | 我 们 会 介绍 本 书 概率 论 中 使 用 的 基本 概念 和 语言 。 











已 经 知道 了 这 些 概念 ， 可 以 跳 过 这 一 部 分 。 




















一 个 样本 空间 8 是 一 个 试验 所 有 可 能 输出 的 集合 。 
8 中 的 一 个 点 w， 为 一 个 实现 。 我 们 称 2 的 一 个 子 集 为 一 个 事件 。 


例如 ， 如 果 我 们 投掷 一 枚 硬币 一 次 ， 我 们 可 以 得 到 正面 (H) 或 者 反面 
T)。 我 们 说 样本 空间 是 2={ 肪 人。 一 个 事件 可 以 是 我 得 到 了 正 而 
果 我 们 投掷 一 枚 硬币 两 次 ， 样 本 空间 变 得 更 大 ， 我 们 可 以 记录 所 有 的 可 能 
人 ={HH,HT,TH,TT}。 一 个 事件 可 以 是 我 们 首先 得 到 了 正面 。 因 









































E={HHHT)。 





更 复杂 的 例子 可 以 是 菜 人 身高 的 米 数 度量 ”。 样 本 空 
正 数 。 你 的 朋友 很 有 可 能 都 没有 10.9 米 高 ， 但 是 这 并 不 会 破坏 我 们 的 理 ; 


















































以 及 事件 
他 们 使 用 的 




















随机 














如 果 读 者 


在 这 个 集合 中 ， 我 们 称 











CH)。 如 











此 我 的 事件 是 








间 是 所 有 从 0.0 到 10.9 的 


论 。 


一 个 事件 可 以 是 所 有 的 篮球 和 运动员， 也 就 是 高 于 2 米 的 人 。 其 数学 记 法 写 





作 ， 相 对 区 间 8=[0,10.9]，5=[2,10.9]。 





一 个 概率 是 指派 给 每 一 个 事件 的 一 个 实数 P(E)。 概 率 必须 满足 下 列 3 个 














公理 。 在 给 出 它们 之 前 ， 我 们 需要 回顾 为 什么 需要 使 用 这 














之 些 公理 。 如 果 你 还 记得 























我 们 之 前 说 的 ， 不 论 我 们 对 概率 做 何 理解 (频率 派 或 贝 叶 斯 派 )， 


的 规则 是 一 样 的 : 
国 对 于 任 

国 _P(O)-1， 意 味 着 包含 所 有 可 能 事件 的 概率 为 1。 

任何 概率 都 在 0 和 1 之 间 。 























《CD 原 书 此 处 为 厘米 ， 似 乎 有 问题 。 








意 事件 EE，P(E) 宇 0: 我 们 说 概率 永远 为 正 。 
因此 ， 从 公 





空 制 概率 计算 











理 1 和 2 看 到 ， 
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加 如 果 有 独立 事件 EE，E,, ...， 那 么 P(UE) 
随机 变量 和 概率 计算 


在 计算 机 程序 中 ， 变 量 是 与 计算 机 内 存 中 一 前 


标记 。 


保存 有 且 仅 有 一 个 
的 是 ， 这 个 取 值 是 已 知 的 ， 并 且 除 非 有 人 特意 改变 ， 它 保持 不 变 。 换 名 话说 ， 取 





因此 一 个 程 

















订 变 量 可 以 通过 它 的 位 置 (和 六 








取 值 。 这 个 取 值 可 以 很 复杂 ， 例 如 数组 或 者 数据 结构 。 最 重 


















































值 只 能 在 算法 确定 要 改变 它 的 时 候 才 会 发 生变 化 。 


而 随机 变量 有 点 不 同 : 它 
验 中 ， 随 机 变量 被 隐 式 地 使 用 : 


国 当 投 掷 两 颗 仍 子 的 时 候 ， 两 个 点 数 之 和 式 是 一 个 随机 变量 。 
































国 当 投掷 一 枚 硬币 次 时 ， 正 面向 上 的 次 数 
对 于 每 一 个 可 能 的 事件 ， 我 们 可 以 关联 一 个 概率 P;,。 所 有 这 些 概 率 的 集合 是 
随机 变量 的 概率 分 布 。 


让 我 们 看 一 个 例子 : 考虑 投 撕 一 枚 硬币 3 次 的 试验 。《〈 样 本 空间 中 的 ) 样 





Io 


因此 我 们 可 以 很 容易 地 列举 所 有 可 能 的 输出 ， 


如 果 我 们 给 每 个 事件 指认 1/8 的 概率 ， 那 么 使 用 列举 的 方法 ， 我 们 可 以 看 
PUD)=PCUD=PCUZD)=1/2。 


在 这 个 概率 模型 中 ， 事 伯 





本 点 是 





3 次 投掷 的 











结果 。 例 如 ，HHT， 两 次 正面 











=2a P(E )。 


分 存储 空间 相关 联 的 名 称 或 者 








F 多 语言 中 的 类 型 ) 来 定义 ，3 








了 是 一 个 随机 变量 。 











向 上 和 一 次 背面 向 上 是 一 个 样 


























开 找 出 样本 空间 : 














S={HHH, HHT, HTH,THH,TTH,THT,HTT,TIT! 
假设 甩 为 第 i 次 投 挤 正 面向 上 的 事件 。 例 如 : 


Hi={HHH,HHT,ATHATT,) 





们 首先 有 : 


PH N HN HPUHHAY)- $= 























1 :1 


























F 、 右 、H; 是 相互 独立 的 。 要 验证 这 个 结论 ， 





1 





2 2 


我 们 还 必须 验证 每 一 对 乘积 。 例 如 : 





[38.1 


3 PL) CS) 





要 





是 从 样本 空间 到 实数 的 函数 映射 。 例 如 ， 在 一 些 斌 





我 





1.2 ”使 用 概率 表示 不 确定 性 


PO N HY-POUHH HAT $= 7- POH) PC 























对 于 另外 两 对 也 需要 同样 的 验证 。 所 以 及、 码 、 三 是 相互 独立 的 。 通常， 
我 们 把 两 个 独立 事件 的 概率 写作 它们 独自 概率 的 乘积 : Pd mn B)=P(4) : P(B)。 我 
们 把 两 个 不 相干 独立 事件 的 概率 写作 它们 独立 概率 的 和 : P(4 U B)=P(4)+P(B)。 
如 果 我 们 考虑 不 同 的 结果 ， 可 以 定义 另外 一 种 概率 分 布 。 例 如 ， 假 设 我 们 依 
然 投 掷 3 次 般 子 。 这 次 随机 变量 是 完成 3 次 投掷 后 ， 正 面向 上 的 总 次 数 。 
使 用 列举 方法 我 们 可 以 得 到 和 之 前 一 样 的 样本 空间 : 
S={HHH, HHT, HTH,THH,TTH,THT,ATT,TIT} 

但 是 这 次 我 们 考虑 正面 向 上 的 次 数 ， 随 机 变量 X 会 把 样本 空间 映射 到 表 
1-1 所 示 的 数值 : 

表 1-1 

8 HHH HHT HTH THH 7 了 8 THT HIT TPIT 
Xs) 3 2 2 2 1 1 1 0 


因此 随机 变量 邓 的 取 值 范围 是 {0,1,2,3}。 和 之 前 一 样 ， 如 果 我 们 假设 所 有 点 
都 有 相同 的 概率 118， 我 们 可 以 推出 蕊 取 值 范围 的 概率 函数 ， 如 表 1-2 所 示 : 
表 1-2 


x 0 1 2 3 
P(X=x) 1/8 3/8 3/8 1/8 






























































让 



















































































1.2.4 ”联合 概率 分 布 

让 我 们 回 到 第 一 个 游戏 ， 同 时 得 到 2 次 正面 向 上 和 一 次 6 点 ， 低 概率 的 获胜 
游戏 。 我 们 可 以 给 硬币 投掷 试验 关联 一 个 随机 变量 W， 它 是 2 次 投掷 后 获得 正面 
的 次 数 。 这 个 随机 变量 可 以 很 好 地 刻画 我 们 的 试验 , Y 取 0、1 和 2。 因 此 ， 我 
们 不 说 对 两 次 正面 向 上 的 事件 感 兴趣 ， 而 等 价 的 说 我 们 对 事件 N=2 感 兴趣 。 这 
种 表述 方便 我 们 查看 其 他 事件 ， 例 如 只 有 1 次 正面 CHT 或 TH)， 甚 至 0 次 正四 
(TT)。 我 们 说 ， 给 入 的 每 个 取 值 指派 概率 的 函数 叫 作 概率 分 布 。 另 一 个 随机 变 
量 是 刀 ， 表 述 投掷 明 子 之 后 的 点 数 。 


当 我 们 同时 考虑 两 个 试验 〈 投 掷 硬币 2 次 和 投 找 一 个 般 子 〉 的 时 候 ， 我 们 对 
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同时 获得 0、1 或 2 的 概率 以 及 1、2、3、4、5 或 6 的 点 数 概率 更 感 兴趣 。 这 两 
个 同时 考虑 的 随机 变量 的 概率 分 布 写作 P(N,D)， 称 作 联 合 概率 分 布 。 


如 果 一 直 加 入 越 来 越 多 的 试验 和 变量 ， 我 们 可 以 写 出 一 个 很 长 很 复杂 的 联 
合 概 率 分 布 。 例 如 ， 我 们 可 能 对 明天 下 雨 的 概率 ， 股 市 上 涨 的 概率 ， 以 及 明天 上 
班 路 上 高 速 堵车 的 概率 感 兴 趣 。 这 是 一 个 复杂 的 例子 但 是 没有 实际 意义 。 我 们 几 
乎 可 以 确定 股市 和 天 气 不 会 有 依赖 关系 。 然 而 ， 交 通 状况 和 天 气 状 况 是 密切 关联 
的 。 我 可 以 写 出 分 布 P(W,M,) 一 一 天 气 、 股 市 、 交 通 一 一 但 是 它 似 乎 有 点 过 于 复 
杂 了 。 而 事实 并 非 如 此 ， 这 也 是 本 书 要 一 直 探 讨 的 话题 。 

一 个 概率 图 模型 就 是 一 个 联合 概率 分 布 。 除 此 以 外 ， 并 无 他 物 。 

联合 概率 分 布 的 最 后 一 个 重要 概念 是 边缘 化 (Marginalization)。 当 你 考察 几 
个 随机 变量 的 概率 分 布 ， 即 联合 概率 分 布 时 ， 你 也 许 想 从 分 布 中 消除 一 些 变量 ， 
得 到 较 少 变量 的 分 布 。 这 个 操作 很 重要 。 联 合 分 布 P(X,7) 的 边缘 分 布 P(X) 可 以 
通过 下 列 操作 获得 : 












































































































































B= 2 PED 
其 中 我 们 按照 y 所 有 可 能 的 取 值 汇总 概率 。 通 过 这 个 操作 ， 你 可 以 从 POCDD) 
消除 了 。 作 为 练习 ， 可 以 考虑 一 下 这 个 概率 与 之 前 看 到 的 两 个 不 相干 事件 概率 之 
间 的 关系 。 

















| 









































对 于 数学 见长 的 读者 ， 当 了 是 连续 值 时 ， 边 缘 化 可 以 写作 PCO= |, PQ)dy。 

这 个 操作 非常 重要 ， 但 对 于 概率 图 模型 也 很 难 计算 。 几 乎 所 有 的 概率 图 模型 
都 试图 提出 有 效 的 算法 ， 来 解决 这 个 问题 。 多 亏 了 这 些 算法 ， 我 们 可 以 处 理 现实 
世界 里 包含 许多 变量 的 复杂 而 有 效 的 模型 。 

































































1.2.5 ” 贝 叶 斯 规则 

让 我 们 继续 探讨 概率 图 模型 的 一 些 基 本 概念 。 我 们 看 到 了 边缘 化 的 概念 ， 它 
很 重要 ， 因 为 当 有 一 个 复杂 模型 的 时 候 ， 你 可 能 希望 从 一 个 或 者 少数 变量 中 抽取 
音 息 。 此 时 就 用 上 边缘 化 的 概念 了 。 


但 是 最 重要 的 两 个 概念 是 条 件 概率 和 贝 叶 斯 规则 。 



































1.2 ”使 用 概率 表示 不 确定 性 























条 件 概率 是 指 在 知道 其 他 事件 发 生 的 条 件 下 当前 事件 的 概率 。 很 明显 ， 两 个 
守 件 必须 某 种 程度 的 依赖 ， 否 则 一 个 事件 的 发 生 不 会 改变 另 一 个 事件 : 
四 明天 下 十 的 概率 是 多 少 ? 明天 路 上 拥堵 的 概率 是 多 少 ? 
知道 明天 要 下 雨 的 话 ， 路 上 拥堵 的 概率 又 是 多 少 ? 它 应 该 比 没有 下 雨 知 
识 的 情况 下 要 高 。 


这 就 是 条 件 概率 。 更 形式 化 的 ， 我 们 可 以 给 出 下 列 公式 ; 



































中 
ul 
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PCID= PC IX) = 


P(X,Y) 
P(X) 





从 这 两 个 等 式 我 们 可 以 轻松 地 推导 出 贝 叶 斯 公式 : 


P(Y |X):P(X) 


P(X|Y)= PO 








这 个 公式 是 最 重要 的 公式 ， 它 可 以 帮助 我 们 转换 概率 关系 。 这 也 是 拉 普 拉 斯 
生涯 的 杰作 ， 也 是 现代 科学 中 最 重要 的 公式 。 然 而 它 也 很 简单 。 
在 这 个 公式 中 ， 我 们 把 PAI7) 叫 作 是 给 定 了 下 式 的 后 验 分 布 。 因 此 ， 我 们 
也 把 POY) 叫 作 先 验 分 布 。 我 们 也 把 P(OZ 习 叫做 似 然 率 ，P(O 叫做 归 一 化 因子 。 


我 们 再 解释 一 下 归 一 化 因子 。 回 忆 一 下 : PC,7)= PC PC)。 而 且 我 们 有 
PO=2 P(X,7) ， 即 旨 在 消除 〈 移 出 ) 联合 概率 分 布 中 单个 变量 的 边缘 化 。 
因此 基于 上 述 理解 ， 我 们 可 以 有 P(D= > ,PPD= > P(YID POO。 


借助 简单 的 代数 技巧 ， 我 们 可 以 把 贝 叶 斯 公式 改写 成 一 般 的 形式 ， 也 是 最 方 
便 使 用 的 形式 : 





































































































P(Y |X):P(X) 
RY |X)P(X) 





P(X|Y)= 














这 个 公式 之 美 ， 以 至 于 我 们 只 需要 给 定 和 使 用 P(YIX) 和 P(X)， 也 就 是 先 验 
和 似 然 率 。 虽 然 形 式 简 单 ， 分 母 中 的 求 和 正如 以 后 所 见 ， 可 能 是 一 个 棘手 的 问 
题 ， 复 杂 的 问题 也 需要 先进 的 技术 。 
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理解 贝 叶 斯 公式 
0 ed nine. 让 我 们 改写 成 男 外 两 个 变 
毕竟 ， 用 什么 字母 并 不 重要 ， 但 是 它 可 以 给 出 公式 背后 的 自然 理解 : 
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小 1 





























PCD10).P(O) 


P(O1D)= 
人 2,, PD10)P(O) 





这 些 概 念 背 后 的 直觉 逻辑 如 下 : 

国 先 验 分 布 P(0) 是 指 我 们 在 知道 其 他 信息 之 前 对 9 的 认识 一 我 的 初始 信念 。 

国 给 定 0 值 下 的 似 然 率 ， 是 指 我 可 以 生成 什么 样 的 数据 D。 换 名 话说， 对 
于 所 有 的 9，D 的 概率 是 多 少 。 

国 后 验 概率 PCID)， 是 指 观察 到 刀 之 后 ， 对 0 的 新 信念 。 


这 个 公式 也 给 出 了 更 新 变量 0 信念 的 前 向 过 程 。 使 用 贝 叶 斯 规则 可 以 计算 0 
新 的 分 布 。 如 果 又 收 到 了 新 的 信息 ， 我 们 可 以 一 次 又 一 次 更 新 信念 。 
























































贝 叶 斯 规则 的 第 一 个 例子 
在 这 一 部 分 中 ， 我 们 会 看 到 第 一 个 R 语言 的 贝 叶 斯 程序 。 我 们 会 定义 离间 
随机 变量 ， 也 就 是 随机 变量 只 能 取 预 定义 数量 的 数值 。 假 设 我 们 有 一 个 制作 灯泡 
的 机 器 。 你 想 知 道 机 器 是 正常 工作 还 是 有 问题 。 为 了 得 到 答案 你 可 以 测试 每 一 个 
和 灯泡， 但 是 灯泡 的 数量 可 能 很 多 。 使 用 少量 样本 和 贝 叶 斯 规则 ， 你 可 以 估计 机 器 
否 在 正常 的 工作 。 


在 构建 由 叶 斯 模型 的 时 候 ， 我 们 总 是 需要 建立 两 个 部 件 ; 


国 先 验 分 布 

图 似 然 率 

在 这 个 例子 中 ， 我 们 不 需要 特殊 的 程序 包 ; 我 们 只 需要 编写 一 个 简单 的 函数 
来 实现 贝 叶 斯 规则 的 简单 形式 。 

先 验 分 布 是 我 们 关于 机 器 工作 状态 的 初始 信念 。 我 们 确定 了 第 一 个 刻画 机 器 
状态 的 随机 变量 M。 这 个 随机 变量 有 两 个 状态 {working,broken}。 我 们 相信 机 器 
是 好 的 ， 是 可 以 正常 工作 的 ， 所 以 先 验 分 布 如 下 : 
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1.2 ”使 用 概率 表示 不 确定 性 


P(M= working)=0.99 
P(M= broken)=0.01 


简单 地 说 ， 我 们 对 于 机 器 正常 工作 的 信念 度 很 高 ， 即 99% 的 正常 和 1% 的 

























































































贝 叶 斯 规则 在 所 有 理解 下 都 适用 。 
第 二 个 变量 是 LI， 是 机 器 生产 的 灯泡 。 灯 泡 可 能 是 好 的 ， 
以 这 个 随机 变量 包含 两 个 状态 {g00d,bad} 。 

















了 问题。 很 明显 ， 我 们 在 使 用 概率 的 贝 叶 斯 思想 ， 因 为 我 们 并 没有 很 多 机 器 ， 而 
只 有 一 台 机 器 。 我 们 也 可 以 询问 机 器 供应 商 ， 得 到 生产 正常 机 器 的 频率 信息 。 我 
们 也 可 以 使 用 他 们 提供 的 数字 ， 这 种 情况 下 ， 概 率 就 有 了 频率 派 的 解释 。 但 是 ， 




















也 可 能 是 坏 的 。 所 


同样 ， 我 们 需要 给 出 灯泡 变量 志 的 先 验 分 布 : 在 贝 叶 斯 公式 中 ， 我 们 需要 给 








出 先 验 分 布 和 似 然 率 分 布 。 在 这 个 例子 中 ， 似 然 率 是 PLLIM)， 





而 不 是 PCL)。 


这 里 我 们 事实 上 需要 定义 两 个 概率 分 布 : 一 个 是 机 器 正常 M=working 时 的 




















概率 ， 一 个 是 机 器 损坏 M=broken 时 的 概率 。 我 们 需要 回答 两 








遍 : 





国 当 机 器 正常 的 时 候 ， 生 产 出 好 的 灯泡 或 者 坏 的 灯泡 的 可 能 性 是 多 少 ? 
国 当 机 器 不 正常 的 时 候 ， 生 产 出 好 的 灯泡 或 者 坏 的 灯泡 的 可 能 性 是 多 少 ? 



































列 统计 : 
P(L=goo0d |M= working)=0.99 
P(L=bad WE working)=0.01 
P(L=good |M= broken)=0.6 
P(L=bad IM= broken)=0.4 


我 们 相信 ， 如 果 机 器 正常 ， 生 产 100 个 灯泡 只 会 有 一 个 是 坏 的 ， 这 比 之 前 说 
的 还 要 高 些 。 但 是 在 这 个 例子 中 ， 我 们 知道 机 器 工作 正常 ， 我 们 期 望 非常 高 的 良 



































证 我 们 给 出 最 可 能 的 猜测 ， 不 管 是 支持 贝 叶 斯 派 还 是 频率 派 ， 因 为 我 们 有 下 








I 





品 率 。 但 是 ， 如 果 机 器 坏 掉 ， 我 们 认为 至 少 40% 的 灯泡 都 是 坏 的 。 现 在 ， 我 们 














己 经 完整 地 刻画 了 模型 ， 并 可 以 使 用 它 了 。 























们 想 知 道 ， 在 已 知 最 后 一 个 灯泡 是 坏 的 情况 下 机 器 是 否 可 以 了 

















使 用 贝 叶 斯 模型 是 要 在 新 的 事实 可 用 时 计算 后 验 分 布 。 在 我 们 的 例子 中 ， 我 


E 常 工作 。 所 以 ， 我 
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们 想 计算 PUMIL)。 我 们 只 需要 给 出 PCOM) 和 PCLIM)， 最 后 只 需 用 一 下 贝 叶 斯 公式 
来 转换 概率 分 布 。 


例如 ,假设 最 后 生成 的 灯泡 是 坏 的 ， 即 [=bad。 使 用 贝 叶 斯 公式 我 们 有 : 


P(M=working|L=bad)= 














P(L= bad |M = working): P(M = working ) 

P(L= bad| M = working) P(M = working)+ P(L= bad |M = broken)P (M = working ) 
0.01x0.99 
0.01x 0.99+0.4x0.01 


正如 所 见 ， 机 器 正常 工作 的 概率 是 71%。 这 个 值 比较 低 ， 但 是 符合 机 器 依 
然 正 常 的 直观 感觉 。 尽 管 我 们 收 到 了 一 个 坏 灯 泡 ， 但 也 仅 此 一 个 ， 也 许 下 一 个 
就 好 了 。 

让 我 们 重新 计算 同样 的 问题 ， 其 中 机 器 正常 与 否 的 先 验 概率 和 之 前 的 相同 : 
50% 的 机 器 工作 正常 ，50% 的 机 器 工作 不 正常 。 结 果 变 成 : 

0.01x 0.5 
0.01x 0.5+ 0.4x 0.5 

机 器 有 2.4% 的 概率 正常 工作 。 这 就 很 低 了 。 确 实 ， 给 定 机 器 质量 后 ， 正 如 
建 模 成 似 然 率 ， 机 器 似乎 要 生产 出 坏 灯 泡 。 在 这 个 例子 中 ， 我 们 并 没有 做 有 关机 
器 正常 的 任何 假设 。 生 产 出 一 个 坏 灯泡 可 以 看 作出 问题 的 迹象 。 





0.71 













































































= 0.024 










































































贝 叶 斯 规则 的 第 一 个 R 语 言 例子 
看 了 之 前 的 例子 ， 有 人 会 问 第 一 个 有 意义 的 问题 : 如 果 观 察 多 个 坏 灯泡 我 们 
需要 怎么 办 ? 只 看 到 一 个 坏 灯泡 就 说 机 器 需要 维修 ， 这 似乎 有 些 不 合 情 理 。 贝 叶 
斯 派 的 做 法 是 使 用 后 验 概 率 作为 新 的 概率 ， 并 在 序列 中 更 新 后 验 分 布 。 然 后 ， 秆 
手 做 起 来 会 很 繁重 ， 我 们 会 编写 第 一 个 R 语言 贝 叶 斯 程序 。 

下 列 代码 是 一 个 函数 ， 计 算 给 定 先 验 分 布 、 似 然 率 和 观察 数据 序列 后 的 后 


验 概率 。 这 个 函数 有 3 个 变量 : 先 验 分 布 、 似 然 率 和 数据 序列 。prior 和 data 
是 向 量 ，1ikelihood 是 矩阵; 


































































































prior <-c(working =0.99, broken =0.01) 
likelihood <-rbind!( 
working =c(goo0od =0.99, bad =0.01), broken =c(good =0.6, 
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1.2 ”使 用 概率 表示 不 确定 性 


bad 0:4) 
data <=("bad”, "bad”; “bad; "bad") 


所 以 我 们 定义 了 3 个 变量 ， 包 含 工 作 状 态 working 和 broken 的 prior， 
刻画 每 个 机 器 状态 (working 和 broken) 的 1ikelihood， 人 灯泡 变量 LK 上 的 
distribution。 因 此 一 共有 4 个 值 ，R 矩阵 类 似 于 之 前 定义 的 条 件 概率 : 

likelihood 

good bad 


working 0.99 0.01 
broken 0.60 0.40 


data 变量 包含 观察 到 的 ， 用 于 测试 机 器 和 计算 后 验 概率 的 灯泡 序列 。 因 此 ， 
我 们 可 以 定义 如 下 贝 叶 斯 更 新 函数 : 










































































bayes <-function (prior, likelihood, data) 

{ 
posterior <-matrix(0, nrow =length (data), ncol =length (prior)) 
dimnames (posterior) <-list(data, names (prior)) 


imitial DELIGE -<=pLLOT 
for (i in 1:length (data)) 
{ 
posterior[i, ] <- 
prior *]ikelihood[, data[i]]/ 
sum(prior *]likelihood[,data[i]] 


prior <-posterior[i, |] 
} 


return (rbind (initial prior, posterior)) 
} 


这 个 函数 做 了 下 列 事情 : 


国 创建 一 个 和 矩阵， 存储 后 验 分 布 的 连续 计算 结果 。 

国 然后 对 于 每 一 个 数据 , 给 定 当前 先 验 概 率 计 算 后 验 概 率 : 和 之 前 的 一 样 
你 可 以 看 到 贝 叶 斯 公式 的 及 代码 。 

国 最 后 ， 新 的 先 验 概率 是 当前 的 后 验 概率 ， 而 且 同 样 的 过 程 可 以 迭代 。 


最 终 ， 函 数 返 回 了 一 个 和 矩阵， 包含 初始 先 验 概 率 和 所 有 后 续 后 验 概率 。 


让 我 们 多 运行 几 次 ， 理 解 一 下 工作 原理 。 我 们 使 用 函数 matpIot 绘 出 两 个 
分 布 的 演化 情况 。 一 个 是 机 器 正常 (绿色 线 ) 的 后 验 概 率 ， 一 个 是 机 器 故障 〈 红 
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色 线 ) 的 后 验 概 率 ， 如 图 1-1 所 示 。 


matplot (bayes (prior, likelihood, data), t ='b', lty =1, pch =20, 
Col =e(3; 2)) 





bayes (prior,likelihood,data) 











结果 可 以 从 图 中 看 到 : 随 着 坏 灯 泡 的 增多 ， 机 器 正常 的 概率 快速 下 降 ( 实 线 
或 绿色 线 ) ” 

我 们 原本 希望 100 只 灯泡 中 只 有 1 个 坏 灯泡 ， 不 要 太 多 就 好 。 所 以 这 个 机 器 
现在 需要 维护 了 。 红 色 线 或 虚线 表示 机 器 有 问题 。 

如 果 先 验 概率 不 同 ， 我 们 可 以 看 到 不 同 的 演化 。 例 如 ， 假 设 我 们 不 知道 机 器 
是 否 可 以 正常 工作 ， 我 们 为 每 一 种 情况 指认 相同 的 概率 : 

prior <-Cl(working =0.5, broken =0.5) 


再 次 运行 代码 : 






































matplot (bayes (prior, likelihood, data), t ='b', lty =1, pch =20, 
Ol =6(3, 2})) 


我 们 又 得 到 了 一 个 快速 收敛 的 曲线 ， 其 中 机 器 有 问题 的 概率 很 高 。 这 对 于 给 
定 一 批 坏 灯泡 的 情形 来 说 ， 并 不 意外 ， 如 图 1-2 所 示 。 


























GQ) 原 书 中 “as the bad light bulbs arrive, the probability that the machine will fail quickly falls”， 应 
有 误 。 





1.2 ”使 用 概率 表示 不 确定 性 
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如 果 一 直 变换 数据 ， 我 们 可 以 看 到 不 同 的 行为 。 例 如 ， 假 设 机 器 正常 工作 的 
概率 是 99%。 我 们 观察 10 个 灯泡 ， 其 中 第 一 个 灯泡 是 坏 的 。 我 们 有 R 代码: 


























Pirlo =C(Wworking S099, broken =0.01) 

data =c("bad", "good", "good", "good", "good", "good", "good", 
goed"; "geed", "goed") 

matplot (bayes (prior, likelihood, data), t ='b', pch =20, col =c(3, 2)) 


结果 如 图 1-3 所 示 。 
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算法 在 第 一 个 灯泡 处 犹 殉 了 一 下 。 因 为 这 么 好 的 机 器 ， 不 大 可 能 生产 出 一 个 
坏 灯 泡 。 但 是 然后 它 又 收敛 到 很 高 的 概率 ， 因 为 好 灯泡 的 序列 不 会 预示 任何 问题 。 
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国 推 是 的 问题 ， 


国 学 习 的 问题 ， 
































可 以 ， 但 是 只 能 在 有 两 个 离散 变量 的 时 候 。 这 








复杂 性 。 我 们 会 介 











1.3 概率 图 模型 


在 本 章 的 最 后 一 部 分 ， 我 们 会 介绍 概率 图 
单 的 模块 生成 复杂 的 概率 模型 。 这 些 复杂 模型 通常 对 了 














即 收 到 新 数 





的 。 而 复杂 并 不 意味 着 
和 解决 拥有 很 多 输入 、 





混乱 










































































我 们 的 第 一 个 R 语言 贝 叶 斯 模型 就 完成 了 。 本 章 的 其 他 部 分 ， 


人 
介 引 
创建 带 有 多 于 两 个 随机 变量 现实 世界 的 模型 ， 以 及 如 何 解决 两 个 重要 问题 : 
中 时 计算 后 验 概率 的 问题 。 
即 数据 集 里 先 验 概率 的 确 


细心 的 读者 也 许 会 问 ， 刚才 看 到 的 这 个 简单 的 算法 可 以 解决 


定 问 题 。 





























简单 ， 而 无 法 捕 提 现实 | 














些 过 了 
本 书 的 核心 内 容 和 执行 贝 叶 斯 推理 的 3 









































FE 流 工具 : 概率 图 模型 。 


会 介绍 如 何 


条 问题 吗 ? 它 确实 
旧 界 的 








模型 ， 作 为 原生 框架 支持 通过 简 























， 简 单 的 事情 是 最 好 、 最 





F 要 解决 的 复杂 任务 是 必需 























部 件 或 者 数据 的 任务 ， 我 们 需要 一 个 不 完全 平凡 的 

















但 是 要 满足 足够 的 复杂 度 。 














j 效 的 。 复 杂 是 指 为 了 表示 


模型 ， 


这 个 复杂 的 模型 可 以 分 解 成 几 个 相互 交互 的 简单 问题 。 最 终 ， 最 简单 的 构建 


模块 是 一 个 变量 。 这 个 变量 


的 一 个 值 。 


1.3.1 概率 模型 





有 一 个 随机 值 ， 或 者 像 之 前 部 分 看 到 的 带 有 不 确定 性 









































如 果 你 还 记得 ， 我 们 看 到 使 用 概率 分 布 表 示 复 杂 概 念 是 有 可 能 的 。 当 我 们 有 
许多 随机 变量 时 ， 我 们 把 这 个 分 布 叫 作 联 合 分 布 。 有 时 拿 到 几 百 个 甚至 上 干 个 更 
多 的 随机 变量 并 非 不 可 能 。 





也 是 不 可 能 的 。 
例如 ， 在 











医学 诊断 中 ， 每 





3 
又 量 
里 。 

















其 他 变量 可 以 表示 病人 的 年 龄 、 











表示 这 么 庞大 的 分 布 是 非常 困难 的 ， 在 大 多 数 情 








个 变量 表示 



































性 别 、 体 温 、 











I 压 等 。 我 们 可 以 使 月 


< 


多 下 





个 症状 。 我 们 可 以 拿 到 许多 这 样 的 


日 许多 











不 同 的 变量 表示 病人 状态 。 我 们 也 可 以 加 入 其 他 信息 ， 例 如 最 近 的 天 气 条 件 ， 病 


人 的 年 龄 和 饮食 状况 。 





从 这 个 复杂 的 系统 中 ， 我 们 想 解 决 两 个 问题 : 





1.3 ”概率 图 模型 








国 从 病人 的 数据 库 中 , 我们 希望 评估 和 发 现 所 有 概率 分 布 ， 以 及 相关 参数 。 
这 当然 是 自动 的 过 程 。 
国 我 们 希望 把 问题 放 入 模型 中 ， 例 如 ，“ 如 果 我 们 观察 到 了 一 系列 症状 ， 
我 们 病人 是 否 还 健康 ? ”。 类 似 的 ， “如果 我 改变 病人 的 饮食 ， 并 开 了 
这 个 药 ， 我 的 病人 是 否 会 恢复 ? ”。 
然而 ， 还 有 一 个 重要 的 问题 : 在 这 个 模型 中 ， 我 们 想 利 用 其 他 重要 的 知识 ， 
甚至 是 最 重要 的 知识 之 一 : 不 同 模型 部 件 之 间 的 交互 。 换 句 话 说， 不同 随机 变量 
之 间 的 依赖 。 例 如 ， 症 状 和 疾病 之 间 有 明显 的 依赖 关系 。 另 外 ， 饮 食 和 症状 之 间 
的 依赖 关系 比较 遥远 ， 或 者 通过 其 他 变量 例如 年 龄 、 性 别 有 所 依赖 。 
最 终 ， 在 这 个 模型 中 完成 的 所 有 推理 都 天 然 地 带 有 概率 的 性 质 。 从 对 变量 式 
的 观察 ， 我 们 想 推出 其 他 变量 的 后 验 分 布 ， 得 到 它们 的 概率 而 不 是 简单 的 是 或 不 
是 的 回答 。 有 了 这 个 概率 ， 我 们 可 以 拿 到 比 二 元 响应 更 丰富 的 回答 。 






































































































































1.3.2 ”图 和 条 件 独立 
让 我 们 做 一 个 简单 的 计算 。 假 设 我 们 有 两 个 二 元 随机 变量 ， 比 如 一 个 是 在 本 章 
上 一 节 看 到 的 变量 。 我 们 把 它们 命名 为 和 了 Y。 这 两 个 变量 的 联合 概率 分 布 是 PX,7)。 
它们 是 二 元 变量 ， 因 此 我 们 可 以 为 每 一 个 取 值 ， 为 简便 起 见 称 之 为 x、 ww 和 yy、 几 。 

我 们 需要 给 定 多 少 概率 值 ? 一 共有 4 个 ， 即 PO 天)、PCOE nn, 天)、 
P(X=x,, 天 四) 和 PS, P= y,)。 

假设 我 们 不 止 有 两 个 二 元 随机 变量 ， 而 是 10 个 。 这 还 是 一 个 非常 简单 的 模 
型 ， 对 吧 ? 我 们 把 这 些 变 量 叫 作 凶 、 及 、 于 、 且 、 融 、 硕 、 训 、 融 、 肪 、XWo。 这 种 
情况 下 ， 我 们 需要 提供 2"=1 024 个 值 来 确定 我 们 的 联合 概率 分 布 。 如 果 我 们 还 
10 个 变量 ， 也 就 是 一 共 20 个 变量 该 怎么 办 ? 这 还 是 一 个 非常 小 的 模型 。 但 是 
我 们 需要 给 定 2"=1 048 576 个 值 。 这 已 经 超过 了 一 百 万 个 值 了 。 因 此 对 于 这 么 
简单 的 模型 ， 建 模 任 务 已 经 变 得 几乎 不 可 能 了 ! 

概率 图 模型 正 是 简洁 地 描述 这 类 模型 的 框架 ， 并 支持 有 效 的 模型 构建 和 使 
用 。 事 实 上 ， 使 用 概率 图 模型 处 理 上 千 个 变量 并 不 罕见 。 当 然 ， 计 算 机 模型 并 不 会 
存储 几 十 亿 个 值 ， 但 是 计算 机 会 使 用 条 件 独立 ， 以 便 模 型 可 以 在 内 存 中 处 理 和 表示 。 
而 且 ， 条 件 独 立 给 模型 添加 了 结构 知识 。 这 类 知识 给 模型 带 来 了 巨大 的 不 同 。 
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在 一 个 概率 图 模型 中 ， 变 量 之 间 的 知识 可 以 用 图 表示 。 这 里 有 TE 
子 : 如 何 诊断 感冒 。 这 只 是 一 个 示例 ， 不 代表 任何 医学 建议 。 为 了 简单 ， 这 个 例 
子 做 了 极 大 的 精简 。 我 们 有 如 下 几 个 随机 变量 : 
Se: 年 内 季节 。 
N: 鼻子 堵塞 。 
右 : 病人 头痛 。 
S: 
C: 


















































病人 经 常 打 喷 吨 。 
病人 咳嗽 。 
Cold: 病人 感冒 。 





























因为 每 一 个 症状 都 有 不 同 的 程度 ， 所 以 我 们 很 自然 地 使 用 随机 变量 来 表示 这 
些 症状 。 例 如 ， 如 果 病 人 的 鼻子 有 点 堵塞 ， 我 们 会 给 这 个 变量 指派 ， 例 如 60%。 
即 P(N=blocked)=0.6 和 P(N=notblocked)=0.4。 

















在 这 例子 中 ， 概 率 分 布 P(Se,N,H,S,C,Colq) 一 共 需 要 4X2=128 个 值 (4 个 季 
节 ， 每 一 个 随机 变量 取 2 个 值 )。 这 已 经 很 多 了 。 坦 白 讲 ， 这 已 经 很 难 确定 诸如 
“ 黎 子 不 堵塞 的 概率 ”“ 病 人 头痛 和 打 喷 吨 等 的 概率 ”。 

但 是 ， 我 们 可 以 说 头痛 与 咳嗽 或 鼻子 堵塞 并 不 是 直接 相关 ， 除 非 病 人 得 了 感 
冒 。 事 实 上 ， 病 人 头痛 有 很 多 其 他 原因 。 

而 且 ， 我 们 可 以 说 季节 对 打 喷 吨 、 鼻 子 阻塞 有 非常 直接 的 影响 ， 或 者 咳嗽 对 于 
头痛 的 影响 很 少 或 没有 。 在 概率 图 模型 中 ， 我 们 会 用 图 表示 这 些 依赖 关系 。 如 图 1-4 
所 示 ， 每 一 个 随机 变量 都 是 图 中 的 节点 ， 每 一 个 关系 都 是 两 个 节点 间 的 箭头 。 
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如 图 1-4 所 示 ， 概 率 图 模型 中 的 每 一 个 节点 间 都 存在 有 了 向 关系 ， 即 第 头 。 我 

们 可 以 使 用 这 种 方式 来 简化 联合 概率 分 布 ， 以 便 概 率 可 以 追踪 

使 用 图 作为 模型 来 简化 复杂 【或 者 甚至 混乱 ) 的 分 布 有 诸多 好 处 ; 

国 首先 ， 可 以 从 上 个 例子 中 看 到 ， 通 常 我 们 建 模 一 个 问题 的 时 候 ， 随 机 变 
量 只 与 其 他 随机 变量 的 小 规模 子 集 直接 交互 。 因 此 ， 使 用 图 可 以 使 得 模 

型 更 加 紧凑 和 易于 处 理 。 

加 图 中 的 知识 和 依赖 易于 理解 和 沟通 。 

国 图 模型 引出 了 联合 概率 分 布 的 紧 竣 表示 ， 并 且 易 于 计算 。 

国 执行 推断 和 学 习 的 算法 可 以 使 用 图 论 和 相关 算法 ， 以 便 改 进 和 推动 所 有 

推断 和 学 习 : 与 初始 的 联合 概率 分 布 相 比 ， 使 用 概率 图 模型 会 以 几 个 级 

数 的 速度 加 速 计算 。 
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1.3.3 “分 解 分 布 

在 之 前 的 普通 感冒 诊断 的 例子 中 ， 我 们 定义 了 一 个 简单 的 模型 ， 包 含 变 
Se、N、 太 、 S、C 和 R。 我 们 看 到 ， 对 于 这 样 一 个 简单 的 专家 系统 ， 我 们 就 需 
128 个 参数 ! 

我 们 还 看 到 ， 我 们 可 以 基于 常识 或 者 简单 的 知识 做 出 几 个 独立 假设 。 在 以 后 
的 内 容 中 ， 我 们 会 看 到 如 何 从 数据 集中 发 现 这些 假 设 〈 也 叫 作 结 构 学 习 )。 

所 有 我 们 可 以 做 出 假设 ， 重 写 联合 概率 分 布 : 

P(Se,N,H,S,C,Cold) 
=P(Se)P(SISe,Cold)P(N|Se,Cold)P(Cold)P(C|Cold)P(H|Cold) 

在 这 个 分 布 中 ， 我 们 进行 了 分 解 。 也 就 是 说 ， 我 们 把 原来 的 联合 概率 分 布 表 示 为 
一 些 因 子 的 乘积 。 在 这 个 例子 中 ， 因 子 是 更 加 简单 的 概率 分 布 ， 例 如 PColD)， 病人 
感冒 的 情况 下 咳嗽 的 概率 。 由 于 我 们 可 以 把 所 有 的 变量 看 作 二 元 的 (除了 季节 ， 它 
有 4 个 取 值 )， 每 一 个 小 的 因子 (分布) 只 需要 确定 少量 的 参数 : 4H2 +2 +2+2 +2 =30。 
我 们 只 需要 30 个 简单 的 参数 ， 而 不 是 128 个 ! 这 是 个 巨大 的 改进 。 

我 说 过 ， 参 数 非常 容易 确定 ， 不 管 是 通过 手工 还 是 根据 数据 。 例如， 我 
们 不 知道 病人 是 否 得 了 感冒 ， 因 此 我 们 可 以 给 变量 Colq 指派 相同 的 概率 ， 即 
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P(Cold=true)=P(Cold=false)=0.5 

类 似 的 ， 我 们 也 很 容易 确定 P(CICo14)， 因 为 如 果 病 人 得 了 感冒 (Cold = 
他 很 有 可 能 咳嗽 。 如 果 他 没有 感冒 ， 病 人 咳嗽 的 概率 很 低 ， 但 是 不 是 零 
为 还 有 其 他 可 能 的 原因 。 





























true), 


不 能 确定 ， 因 














1.3.4 有 向 模型 
通常 ， 有 向 概率 图 模型 可 以 按照 如 下 形式 分 解 多 个 随机 变量 页， 马 ，.…， 马 
上 的 联合 概率 分 布 : 
Bi Xr, | [Pol pot) 
的 子 集 。 
父 变 量 。 一 








Pa 是 图 中 定义 的 变量 包 的 父 变 量 

图 中 的 父 变量 很 容易 理解 : 当 箭 头 从 4 指向 B 时 ，A 就 是 B 的 父 变 
个 节点 可 以 有 很 多 可 能 的 子 节 点 ， 也 可 以 有 很 多 可 能 的 父 节点 

建 模 需要 表示 因果 关系 的 问题 。 它 也 非常 适合 参数 学 > 



































有 向 模型 非常 适合 
为 每 一 个 局 部 概率 分 布 都 很 容易 学 习 。 

















概率 图 模型 可 以 使 用 简单 的 模块 进行 构建 ， 
块 指 的 是 小 的 概率 分 布 P(Xilpa(X))。 
我 们 只 需 简 单 扩 

















我 们 在 本 章 中 多 次 提 到 ] 
出 更 大 的 模型 。 在 有 向 模型 中 ， 模 

J 扩展 9 个 新 的 变量 以 及 一 些 关系 ， 
攻 ， 不 管 什 么 样 的 规模 。 




















































































































而 且 ， 如 果 我 们 想 给 模型 
展 图 形 。 有 向 概率 图 模型 的 算法 适用 于 任何 图 
尽管 如 此 ， 并 不 是 所 有 的 概率 分 布 都 可 以 表示 成 有 向 概率 图 模型 。 有 时 ， 我 
能 同时 找到 从 4 到 





们 也 有 必要 放松 一 些 假 设 。 
同时 ， 注 意 到 图 必须 是 无 环 的 很 重要 。 
8B 的 币 尖 和 从 B 到 4 的 箭头 ， 如 图 1-5 所 示 


这 意味 着 ， 你 不 
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事实 上 ， 这 个 图 并 不 表示 之 前 定义 的 分 解 过 程 。 它 可 能 意味 着 4 是 B 的 原 
因 ， 同 时 B 也 是 4 的 原因 。 这 是 矛盾 的 ， 也 没有 等 价 的 数学 表示 。 

当 假设 或 者 关系 不 是 有 向 的 ， 还 存在 第 二 种 概率 图 模型 的 形式 。 它 的 边 都 是 
无 向 的 。 它 也 叫 作 无 向 概率 图 模型 或 者 马尔 科 夫 网 络 。 





























1.3.5 无 向 模型 
无 向 概率 图 模型 可 以 按照 如 下 形式 分 解 多 个 随机 变量 厂 ， 丈 ，…， 马上 的 联 
合 概率 分 布 : 





1 
PO Yes i) = La) 
这 个 公式 的 解释 如 下 : 
四 左边 的 第 一 个 项 是 通常 的 联合 概率 分 布 。 
加 常数 Z 是 归 一 化 常数 , 确保 右 侧 所 有 项 的 和 是 1， 因 为 这 是 一 个 概率 分 布 。 
四 9. 是 变量 刀子 集 上 的 因子 ， 以 便 这 个 子 集 的 每 一 个 成 员 是 一 个 极 大 团 ， 
也 就 是 内 部 所 有 节点 都 相互 连接 的 子 图 ， 如 图 1-6 所 示 。 


















































在 上 图 中 ， 我 们 有 4 个 节点 ， 并 且 函 数 pe 定义 在 子 集 ， 也 就 是 极 大 团 {4BC} 
和 {4,D} 上 。 因 此 这 里 的 概率 分 布 并 不 复杂 。 这 种 类 型 的 模型 在 计算 机 视觉 、 图 
像 处 理 、 财 经 和 其 他 变量 间 关 系 遵循 一 定 模式 的 领域 都 有 广泛 的 应 用 。 






















































































1.3.6 示例 和 应 用 

现在 来 讨论 一 下 概率 图 模型 的 应 用 。 其 实 这 些 应 用 用 几 百 页 去 讲述 也 很 难 涵 
蔓 其 中 的 一 部 分 。 正 如 我 们 看 到 的 ， 概 率 图 模型 是 一 种 建 模 复杂 概率 模型 的 很 有 
] 的 框架 ， 可 以 使 得 概率 易于 理解 和 处 理 。 
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在 这 部 分 中 ， 我 们 会 使 用 之 前 的 两 个 模型 : 灯泡 机 和 感冒 诊断 。 
回忆 一 下 ， 感 冒 诊断 模型 有 下 列 分 解 形式 : 
P(Se,N,H,S,C,Cold)=P(Se)P(SSe,Cold) P(NISe, Cold)P(Cold)P(CICoId) P(HICold) 
而 灯泡 机 仅仅 通过 两 个 变量 定义 : L 和 M。 分 解 形式 也 很 简单 。 
PL,M)=PUD : PLIM) 
对 应 分 布 的 图 模型 也 很 简单 ， 如 图 1-7 所 示 。 
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图 1-7 








为 了 表示 概率 图 模型 ， 我 们 会 使 用 R 程序 包 gRain。 安 装 如 下 : 





source ("http://bioconductor,. org/biocLite.R") 
biocLite() 
install .packages ("gRain") 


需要 注意 ， 这 个 安装 过 程 可 能 会 持续 几 分 钟 ， 因 为 这 个 程序 包 还 依赖 于 许多 
其 他 的 程序 包 ( 尤 其 是 我 们 经 常用 到 的 gRbase 程序 包 )， 而 且 提 供 了 对 图 模型 
的 一 些 基本 操作 函数 。 当 程序 包 安装 好 后 ， 你 可 以 加 载 : 



































library ("gRbase") 


首先 ， 我 们 想 定 义 一 个 带 有 变量 4、B、C、D、5 的 简单 无 向 图 : 





























ograph. <=Uug ("A BE + CeEsD") 
class (graph) 


我 们 定义 了 带 有 团 4、B 和 巨 以 及 另 一 个 团 C、E 和 帮 的 图 模型 。 这 形成 了 
一 个 娟 蝶 状 的 图 。 它 的 语法 很 简单 :字符 串 的 每 一 个 团 用 + 分 开 ， 每 一 个 团 使 用 
冒号 分 隔 的 变量 名 定义 。 

接着 我 们 需要 安装 图 的 可 视 化 程序 包 。 我 们 会 使 用 流行 的 Rgraphviz。 要 
安装 可 以 输入 
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install .packages ("Rgraphviz") 


plot (graph) 


你 可 以 得 到 第 一 个 无 向 图 ， 








如 图 1-8 所 示 。 


图 1-8 





接着 ， 我 们 希望 定义 一 个 有 向 图 。 假 设 我 们 依然 有 变量 {4, B, C, D, E} : 


dag <-dag ("A + B:A + C:B + D:B + E:C:D") 


dag 
plot (dag) 


语法 依然 很 简单 : 没有 父 节点 的 节点 单独 表示 ， 例 如 4， 和 否则 父 节 点 通过 





号 分 隔 的 节点 列表 刻画 。 





wll 


这 个 程序 包 提 供 了 多 种 定义 图 模型 的 语法 。 你 也 可 以 按照 节点 的 方式 构建 
图 模型 。 我 们 会 在 本 书 中 用 到 几 种 表示 法 ， 以 及 一 个 非常 著名 的 表示 法 : 和 矩阵 表 
示 法 。 一 个 图 模型 可 以 等 价 地 表示 为 一 个 方 阵 ， 其 中 每 一 行 和 每 一 列表 示 一 个 节 





点 。 如 果 节 点 间 存 在 边 ， 那 么 甸 























E 阵 的 系数 是 1， 否 则 为 0。 如 果 图 是 无 向 的 ， 矩 





阵 会 是 对 称 的 ;否则 可 以 是 任何 样式 。 
最 终 ， 通 过 第 二 个 例子 我 们 可 以 得 到 图 1-9 所 示 的 图 模型 。 











第 1 章 概率 推理 














现在 我 们 想 为 灯泡 机 问题 定义 一 个 简单 的 图 模型 ， 并 给 出 数值 概率 。 我 们 有 
做 一 遍 计算 ， 看 看 结果 是 否 


首先 ， 我 们 为 每 一 个 节点 定义 取 值 : 





i 









































machine val <=C ("Working"s "broken™) 
light bulb val <-c("good", "bad") 


然后 为 两 个 随机 变量 定义 百分比 数值 : 





machine prob <-c(99, 1) 
light bulb prob <-c(99, 1, 60, 40) 


接着 ， 使 用 gRain 定义 随机 变量 : 








M <-cptable (~machine, values = machine prob, levels = machine val) 
L <-cptable (~light bulb |machine, values = light bulb prob, levels = light 
bulb val) 


这 里 ，cptable 表示 条 件 概率 表 : 它 是 离散 型 随机 变量 概率 分 布 的 内 存 表 
示 。 我 们 会 在 第 2 章 精 确 推 断 中 再 次 讨论 这 个 表示 法 。 

最 后 ， 我 们 可 以 构建 新 的 概率 图 模型 。 当 我 们 在 第 2 章 精 确 推断 中 研究 推断 
算法 例如 联结 树 算 法 〈Junction Tree Algorithm ) 时 ， 这 种 表示 法 更 加 易于 理解 : 






















































































plist <-compileCPT (list (M, L)) 
plist 


打印 网 络 的 时 候 ， 结 果 如 下 : 


CPTspec with probabilities: 
P( machine ) 
P( light bulb lmachine ) 


这 里 ， 可 以 清楚 地 看 到 之 前 定义 的 概率 分 布 。 如 果 我 们 打印 出 变量 的 分 布 ， 
我 们 可 以 再 次 看 到 之 前 的 结果 : 



































plist$machine 
Blist$lignt. buls 


输出 的 结果 如 下 : 





>plist$machine 

machine 

working broken 
099 DJ 

>SplistsLlight. bulb 








1.4 小 结 


machine 
light bulb working broken 
good Qa99 人 < 看 
bad QQ1 0.4 


现在 我 们 从 模型 中 找 出 后 验 概率 。 首 先 ， 给 模型 输入 证 据 〔 即 我 们 观察 到 一 
个 坏人 灯泡)， 操 作 如 下 : 


net <-grain (plist) 














net2 <-setEvidence (net, evidence =list(light bulb ="bad")) 
querygrain (net2, nodes =c ("machine")) 


程序 包 会 借助 推断 算法 计算 结果 ， 并 输出 下 列 结果 : 





$smachine 
machine 

working broken 
0.7122302 0.2877698 


这 个 结果 与 之 前 使 用 贝 叶 斯 方法 得 到 的 结果 完全 相同 。 现 在 我 们 可 以 创建 更 
加 强大 的 模型 ， 以 及 针对 不 同 的 问题 应 用 不 同 的 算法 。 这 就 是 下 一 章 关 于 图 模型 
上 精确 推断 的 内 容 。 












































1.4 小 结 
在 第 1 章 中 ， 我 们 学 到 了 概率 论 的 基础 概念 。 


我 们 看 到 了 如 何以 及 为 什么 使 用 概率 来 表示 数据 和 知识 的 不 确定 性 ， 同 时 我 
们 还 介绍 了 贝 叶 斯 公式 。 这 是 计算 后 验 概 率 的 最 重要 的 公式 。 也 就 是 说 ， 当 新 的 
数据 可 用 时 ， 要 更 新 关于 一 个 事实 的 信念 和 知识 。 


我 们 看 到 了 什么 是 联合 概率 分 布 ， 同 时 看 到 它 会 很 快 变 得 很 复杂 以 至 于 难以 
处 理 。 我 们 学 到 了 概率 图 模型 的 基础 知识 ， 它 是 对 概率 模型 进行 易于 处 理 、 高 效 
和 简单 建 模 的 原生 框架 。 最 后 ， 我 们 介绍 了 概率 图 模型 的 不 同类 型 ， 并 学 到 如 何 
使 用 R 程序 包 来 编写 第 一 个 模型 
在 下 一 章 中 ， 我 们 会 学 到 概率 图 模型 上 执行 贝 叶 斯 推断 的 一 系列 算法 ， 即 给 
模型 提出 问题 和 寻求 答案 。 我 们 会 介绍 R 程序 包 的 新 特性 ， 同 时 我 们 会 学 到 这 
些 算 法 如 何 工 作 ， 以 及 高 效 的 执行 。 
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完成 构建 概率 图 模型 之 后 ， 一 个 主要 任务 是 我 们 想 给 模型 提出 问题 并 找 出 答案 。 
对 于 联合 概率 分 布 的 图 模型 和 表示 法 ， 有 很 多 使 用 方式 。 例 如 ， 我 们 可 以 研究 随机 变 



































二 








量 之 间 的 交互 。 我 们 还 可 以 看 到 模型 是 否 捕捉 到 关联 关系 或 因果 关系 。 而 且 ， 由 于 控 
制 随机 变量 的 概率 模型 已 经 参数 化 了 ， 变 量 的 概率 分 布 在 已 知 部 分 数值 参数 的 情况 下 














变 得 完全 已 知 。 我 们 还 可 能 在 其 他 参数 已 知 的 情况 下 ， 对 特定 参数 的 取 值 感 兴趣 。 


本 章 主要 介绍 通过 使 用 模型 和 变量 子 集 的 观察 结果 ， 来 发 现 男 一 个 变量 子 集 
后 验 概率 的 算法 。 我 们 没有 必要 观察 和 查询 所 有 的 变量 。 事 实 上 ， 本 章 中 我 们 即 


























将 看 到 的 所 有 算法 都 可 以 用 在 任何 被 观察 的 子 集 和 被 查询 的 子 
主要 有 两 种 类 型 的 查询 : 























集 上 。 


国 概率 查询 , 其 中 , 我 们 观察 到 变量 的 一 个 子 集 五 , 并 选择 这 些 变 量 的 一 个 实例 e， 























称 之 为 证 据 。 然 后 我 们 计算 变量 集 式 的 子 集 了 的 后 验 概率 分 布 : P(E=e)。 























国 MAP 查询 ， 指 的 是 找 出 对 拥有 最 大 概率 的 变量 子 集 的 











共同 赋值 。 同 时 ， 

















如 果 我 们 把 五 叫 作 被 观察 变量 的 集合 ，Z 是 模型 的 其 他 变量 ， 那 么 MAP 





赋值 可 以 通过 MA4P=(ZI&8=e)=argmax.P(z,e) 来 定义 。 换 
出 未 被 观察 的 变量 的 值 ， 满 足 如 果 我 们 观察 到 赋值 5 





句 话说 ， 我 们 要 找 

















e， 那 么 未 被 观察 























的 变量 拥有 最 大 的 概率 。 
本 章 的 目的 就 是 介绍 解决 精确 推断 问题 的 主流 算法 ， 即 
。 通 常 ， 推 产 问 题 可 以 化 解 为 通过 贝 叶 斯 规则 找 出 后 验 概率 
季 讲 ， 如 果 我 们 把 总 叫 作 模型 的 所 有 变量 的 集合 ， 互 是 被 观 















































下 





流 斑 人 




















合 ，Z 是 隐 含 变量 或 非 观 察 变量 的 集合 ， 那 么 计算 图 模型 的 扫 


回答 上 述 查询 的 问 
的 问题 。 用 数学 的 
察 变 量 (证 据 ) 的 



































E 靳 可 以 使 用 : 








P(Z,H| 0) _ PCQ,E|0) 








P(Z| E,0)= 
@ ) P(E| 0) > ,PZ=2,E 0) 


例如 ， 在 医学 问题 中 ， 给 定 一 个 观察 到 的 症状 集合 ， 我 们 











想 知 道 所 有 可 能 的 





2.1 构建 图 模型 





疾病 。 在 语音 识别 系统 中 ， 我 们 想 知道 被 记录 的 声音 《 即 说 话 者 的 语音 ) 中 最 可 
能 的 单词 序列 。 在 雷达 跟踪 系统 中 ， 我 们 想 从 雷达 读数 中 知道 跟踪 物体 位 置 的 概 
率 分 布 。 在 推荐 系统 中 ， 在 给 出 售卖 网 站 上 用 户 最 近 的 点 击 数据 后 ， 我 们 想 知道 
待 售 产品 的 后 验 概率 分 布 ， 以 便 给 客户 提供 最 优 的 5 个 产品 的 排序 和 推荐 。 


所 有 这 些 问题 ， 以 及 更 多 的 问题 ， 总 是 需要 计算 后 验 概率 分 布 。 为 了 解决 这 
个 复杂 的 问题 ， 我 们 打算 研究 一 下 另 一 个 不 同 的 算法 ， 这 个 算法 以 概率 图 模型 作 
为 基础 图 形 来 执行 高 效 的 计算 。 但 是 ， 在 本 章 的 第 一 部 分 ， 为 了 理解 算法 如 何 工 
作 ， 我 们 会 看 到 如 何 执行 朴素 计算 。 该 计算 并 不 十 分 高 效 ， 但 是 可 以 作为 基于 此 
改进 效率 的 框架 。 这 叫 作 变 量 消解 ， 它 会 逐步 地 减少 查询 中 用 不 到 的 变量 。 

接着 我 们 会 看 到 ， 我 们 可 以 重用 之 前 的 计算 ， 使 用 第 二 个 算法 一 和 积 算法 
来 改进 算法 效率 。 我 们 会 把 这 个 算法 应 用 到 不 同类 型 的 概率 图 模型 ， 特 别 是 带 有 
树 状 层级 的 图 形 。 这 部 分 将 引出 最 后 一 个 也 是 最 重要 的 算法 一 -联结 树 算法 。 它 
可 以 接收 任何 图 形 ， 并 把 它们 转换 为 树 状 结构 ， 进 而 生成 高 效 的 计算 序列 。 这 个 
算法 可 以 使 用 大 部 分 R 程序 包 实现 。 我 们 也 会 在 本 章 中 使 用 。 

在 本 章 中 ， 你 会 学 到 如 何 执行 简单 推断 ， 改 进 计算 效率 ， 并 最 终 使 用 图 模 
型 。 这 个 图 模型 可 以 根据 现实 世界 问题 的 复杂 程度 的 需要 而 构建 。 我 们 会 介绍 R 
语言 的 算法 ， 以 及 RR 程序 包 ， 例如 gRain、gR 和 Hugin 中 的 函数 。 

在 开始 所 有 数学 和 编程 工作 之 前 ， 我 们 会 在 第 1 节 中 介绍 概率 图 模型 的 设计 
过 程 ， 并 且 介 绍 几 个 专家 系统 的 例子 。 我 们 还 会 展示 如 何 把 遗产 模型 表示 为 图 模 
型 ， 并 从 中 受益 。 

本 章 的 组 织 结构 如 下 : 
构建 图 模型 
变量 消解 。 

和 积 与 信念 更 新 。 
联结 树 算法 。 
概率 图 模型 示例 。 
















































































































































































































































































2.1 构建 图 模型 
图 模型 的 设计 考虑 到 两 个 不 同 的 方面 。 第 一 个 方面 ， 我 们 需要 确定 模型 中 涉 
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及 的 变量 。 变 量 指 我 们 可 以 观察 到 或 度量 到 的 事实 ， 例 如 温度 、 价 格 、 距 离 、 项 

















的 数量 、 时 间 段 或 任何 其 他 值 。 一 个 变量 也 可 以 表示 一 个 或 真 或 假 的 简单 事实 。 





同时 ， 这 也 是 我 人 


门 为 什么 要 构建 





图 模型 的 原 








因 。 变 量 可 以 捕 换 问题 的 局 部 ， 


而 我 们 却 无 法 直接 度量 或 者 估计 这 些 与 问题 相关 的 变量 。 例 如 ， 一 个 外 科大 夫 能 
不 是 我 们 可 以 直接 观察 到 的 事实 。 它 们 


够 度量 病人 的 一 系列 症状 。 但 是 















































， 疾 病 # 








能 通过 几 个 症状 的 观察 结果 推论 出 来 。 以 一 般 的 感冒 为 例 ， 当 我 们 说 一 个 人 







































































话 ， 这 很 自然 。 但 是 ， 并 没有 一 个 叫 作 感冒 的 东 
殖 时 ， 病 人 却 有 严重 的 上 呼吸 道 ( 鼻 子 ) 病毒 感 

















只 
得 
西 。 当 某 种 类 型 的 鼻 病 毒 过 
染 








导 了 感冒 ， 每 个 人 都 能 理解 这 各 
分 增 
这 是 一 个 复杂 过 程 ， 但 是 这 只 是 一 个 普通 的 感冒 。 











直接 推出 病人 得 了 感冒 几乎 不 可 能 ， 
































接 观测 到 。 











线性 关系 。 





例如 ， 表 示 症 状 的 变量 和 表 
间 有 直接 的 关系 。 





























除非 医生 对 粘液 采样 ， 并 评估 样本 中 时 
病毒 的 数量 足够 说 明 病 人 得 了 某 种 特定 的 疾病 。 另 一 种 方法 是 从 简单 的 症状 例 
如 头痛 、 流 民 涕 中 得 出 结论 。 在 这 种 情况 下 ， 表 示 病 人 得 感冒 的 变量 不 能 被 直 











第 二 个 方面 是 图 。 图 表示 了 
直接 或 间接 的 交互 。 如 果 你 之 前 学 过 统计 ， 你 就 会 使 用 相关 性 
中 ， 对 两 个 变量 之 间 的 依赖 理解 得 更 加 宽泛 。 事 实 上 ， 相 关 性 








不 同 变量 之 间 的 依赖 ， 它 们 彼 






































2.1.1 随机 变量 的 类 型 





在 多 数 情况 下 ， 我 们 要 使 月 

















假 ， 或 取 特 定数 




















示 疾 病 的 变量 可 以 连接 起 来 ， 


的 变量 都 是 离散 型 的 。 一 个 原 
的 事实 感 兴趣 。 另 一 个 原因 是 在 许多 科学 领 : 
行 建 模 非 常常 见 ， 而 且 离散 变量 的 图 
































此 如 何 关 联 ， 如 何 
的 概念 。 在 图 模型 
只 表示 变量 之 间 的 











因为 这 两 个 变量 之 

















因 是 我 们 对 或 真 或 
成 使 用 离散 变量 进 


























模型 背后 的 数学 逻辑 易于 理解 和 实现 。 





一 个 离散 随机 变量 定义 在 有 限 样 本 空间 5S={v1,v, .… , v,} 上 。 离 散 随机 变量 
的 例子 包括 : 
国 一 个 股子 刀 有 样本 数据 集 {1,2,3,4,5,6}。 


国 一 枚 银币 C 定义 在 集合 {LH} 上 。 








国 ” 一 个 症状 定义 在 值 {true,false} 上 。 
国 单词 中 的 一 个 字母 定义 在 集合 {a,b,c,d,e, .… ,Zz} 上 。 


























2.1 构建 图 模型 





国 一 个 单词 定义 在 一 个 非常 大 的 英语 单词 集合 {the,at,in,bread, .… , computer, 














.… } 上 ， 这 个 集合 是 有 限 的 。 
加 大 小 可 以 定义 在 有 限 数据 集 {0,1,2,3, … ,1000} 上 。 

















一 个 连续 随机 变量 是 定义 在 一 个 连续 的 样本 空间 上 ， 例 如 R，C， 或 者 其 他 





区 间 。 当 然 ， 我 们 也 可 以 把 随机 变量 定义 在 多 维 空间 上 ， 例 




















变量 也 是 有 意义 的 。 连 续 型 随机 变量 的 例子 有 : 
距离 公里 数 。 

















随机 变量 的 平均 值 。 
其 他 随机 变量 的 方差 。 


本 加 加 加 国 
并 人 写 前 
售 莹 

















如 R” 上， 但 是 要 保 


证 每 一 个 维度 都 有 相关 的 含义 。 有 时 ， 把 维度 分 成 个 不 同 的 定义 在 R 上 的 随机 











当 我 们 在 考虑 问题 的 贝 叶 斯 方案 时 ， 最 后 两 个 例子 很 重要 ， 而 且 可 以 导出 机 














器 学 习 问 题 的 有 用 表示 。 确 实 ， 在 贝 叶 斯 方法 中 ， 所 有 的 数量 都 看 作 随 机 变量 。 
因此 ， 如 果 我 们 定义 一 个 服从 分 布 N40 ) 的 随机 变量 ， 我 们 可 以 进一步 把 4 和 




















理解 为 随机 变量 。 
事实 上 ， 在 图 模型 中 ， 把 许多 参数 当成 随机 变量 并 在 图 













































































强 的 依赖 。 


2.1.2 构建 图 


























本 节 中 ， 我 们 会 构建 这 样 的 模型 ， 并 介绍 当 两 个 变量 连接 时 ， 
生 什么 变化 。 我 们 会 使 用 一 个 重要 的 概念 : d- 分 离 。 












































连接 起 来 通常 是 很 


有 用 的 。 这 些 连接 可 以 基于 和 常识、 因果 交互 或 者 其 他 存在 于 两 个 变量 之 间 的 足够 











连接 变量 的 原因 有 很 多 ， 正 如 我 们 在 本 章 会 看 到 的 ， 也 有 许多 算法 可 以 自动 
地 从 数据 集中 学 习 这 些 连接 。 如 果 你 读 了 一 些 科技 文献 ， 你 会 找到 因果 关系 、 稀 
玻 模型 或 者 分 解 的 相关 文献 。 所 有 这 些 原因 都 足以 要 求 图 模型 中 的 变量 连接 。 在 























模型 和 信息 流 会 发 
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另 一 个 生成 图 模型 的 方法 是 模块 化 。 这 是 图 模型 最 吸引 人 的 特点 之 一 ， 因 为 你 
可 以 通过 简单 的 模块 构建 复杂 的 模型 ， 而 且 可 以 通过 扩展 图 形 来 扩展 已 知 的 模型 。 


“学 习 参 数 和 查询 模型 可 以 化 解 为 同样 的 学 习 和 推断 算法 应 用 。” 
让 我 们 看 一 些 图 模型 实际 的 和 理论 的 例子 ， 以 及 它们 捕捉 的 问题 类 型 。 


















































概率 专家 系统 

假设 我 们 想 进 行 肺结核 医疗 诊断 。 介 绍 这 个 例子 之 前 ， 我 们 需要 为 读者 声 
明 一 下 : 本 书 的 作者 并 无 任何 医疗 技术 和 知识 ， 只 关注 本 书 和 机 器 学 习 领 域 。 
此 ， 下 面 例子 的 唯一 目的 是 展示 如 何 构建 一 个 简单 的 图 模型 ， 而 不 用 于 任何 医疗 
目的 。 下 列 例子 出 自 http:/en.wikipedia.org/wiki/Tuberculosis diagnosis 。 


肺结核 是 由 结核 杆菌 引起 的 。 只 有 临床 生物 分 析 检 验 可 以 检测 出 这 种 病毒 ， 
上 认 是 否 得 了 肺结核 。 然而， 物理 检验 可 以 揭示 一 些 肺 结核 的 线索 ， 帮 助 外 科 医 
E 判 断 是 否 需 要 全 面 的 临床 检验 以 得 出 病人 体内 是 否 存在 这 种 病毒 的 判断 。 而 
且 ， 完 整 的 肺结核 医疗 评估 必须 包含 医疗 历史 、 物 理 检 验 、 胸 部 透视 以 及 微生物 
检验 。 因 此 ， 如 果 我 们 想 查 看 可 能 的 症状 和 检验 ， 我 们 也 可 以 确定 相应 的 模型 中 
到 的 随机 变量 : 


C: 超过 3 周 的 咳嗽 。C 可 以 为 真 ， 也 可 以 为 假 。 
P: 胸部 疼痛 。 可 以 为 真 ， 也 可 以 为 假 。 
甩 : 咯血 。 这 也 是 一 个 或 真 或 假 的 二 元 变量 。 
N: 盗汗 。 这 也 是 一 个 二 元 变量 。 
L: 饭量 减少 。 这 个 比较 主观 。 我 们 可 以 按照 3 个 值 分 级 {low,medium,strong}， 
表示 饭量 减少 的 程度 。 
国 最 后 ， 正 如 我 们 所 说 的 ， 只 有 微生物 研究 可 以 断定 肺结核 ， 而 其 他 的 症状 
只 能 假设 它 的 存在 。 因 此 我 们 需要 两 个 随机 变量 ， 一 个 有 关 微 生物 研究 
的 二 元 变量 叫 作 M， 表 明 是 否 发 现 病毒 ， 另 一 个 是 判断 病人 是 否 断 定 ， 
可 能 ， 假 设 患 有 肺结核 ， 以 及 肺结核 呈 阴 性 。 它 是 有 四 个 值 的 随机 变量 。 
为 了 生成 图 模型 ， 我 们 需要 做 两 件 事 : 首先 是 需要 图 形 连 接 随 机 变量 ， 然 
后 评估 每 个 变量 相互 连接 的 先 验 概 率 ， 或 者 是 图 中 的 每 一 个 节点 。 对 于 第 二 个 任 
务 ， 评 佑 概率 需要 医疗 专家 知识 。 很 显然 这 已 经 超出 了 本 书 的 范围 (也 超出 了 作 
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2.1 构建 图 模型 


者 当时 的 技能 范围 )。 因 此 我 们 简单 引入 几 个 概率 的 名 称 ， 例 如 XL、N%o、 加 等 。 
症状 通常 是 由 疾病 引起 的 ， 反 过 来 则 不 成 立 。 例 如 ， 盗 汗 并 不 是 肺结核 的 原 
因 。 而 反 过 来 讲 却 是 成 立 的。 而 且 盗 汗 可 能 由 其 他 原因 引起 ， 例 如 卧室 的 大 功率 
加 热 器 。 但 是 ， 病 毒 可 以 引起 疾病 。 事 实 上 ， 如 果 病 毒 确实 存在 但 是 量 很 少 ， 它 
可 能 也 不 会 引发 疾病 。 这 个 简单 的 推理 启发 我 们 设计 图 形 的 思路 。 
让 我 们 首先 从 二 元 症状 C、P、 且 和 NN 开始。 它们 部 是 由 疾病 7 引起 的 。 变 
量 工 也 可 以 按照 同样 的 原则 添加 到 模型 中 ， 因 此 图 形 如 图 2-1 所 示 。 














图 2-1 





我 们 看 到 变量 之 间 的 连接 存在 某 种 模式 。 在 图 模型 中 处 理 原因 和 结果 的 时 
候 ， 这 个 模式 很 常见 。 如 果 我 们 把 同样 的 思路 用 到 微生物 研究 M 和 疾病 7 的 关 
系 中 ， 我 们 会 得 到 图 2-2 所 示 的 交互 结果 。 














图 2-2 





因此 ， 当 我 们 把 之 前 的 两 个 图 形 放 在 一 起 后 ， 最 终 的 图 形 如 图 2-3 所 示 。 





图 2-3 





我 们 完成 的 操作 是 概率 图 模型 非常 重要 的 方面 : 我 们 把 两 个 子 模型 连接 在 一 
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起 得 到 一 个 更 加 复杂 ， 而 且 可 以 更 有 效 地 捕捉 信息 的 大 模型 。 











E: 








同一 个 图 中 添加 更 多 六 





E 状 和 疾病 ， 以 





更 可 以 














似 症状 的 疾病 。 通 过 计算 给 定 


六 

















概率 图 模型 的 基本 结构 
我 们 继续 研究 


多 个 R 程序 包 实现 和 展示 其 




















医疗 方案 来 应 对 最 可 能 的 疾病 。 这 种 














多 式 的 概率 图 模型 有 






































的 情况 下 这 个 结构 非常 常见 。 
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有 有 








这 些 


上 实 ， 假 设 我 们 有 








而 结束 这 一 部 分 。 
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注意 到 所 有 的 变量 者 














4 
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以 及 事实 下 它 也 是 二 元 变 直 o 
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既 率 分 布 是 : P(F|Ci,C;, … , C,)。 


b 是 二 元 的 ， 我 














果 n=10， 这 个 值 事 实 上 3 
率 。 如 果 我 们 有 31 个 原 











因 ， 
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值 ， 


= 中 和 | 
就 需要 "个 


图 2-4 展示 了 原 








因 。 














不 大 ， 我 们 只 
2 -24294 967 296! 
是 的 ， 你 需要 40 亿 个 值 表示 31 个 原因 
值 ， 这 将 会 占用 计算 机 34 359 738 368 字 节 的 内 存 ， 也 就 
的 一 个 模型 ， 这 已 经 过 于 庞大 了 。 如 果 你 的 变量 不 仅 拥 








门 希望 表示 成 一 个 带 有 2” 个 值 的 


























需要 2 048 个 值 ! 这 就 需要 确 
! 








和 1 个 事实 。 使 月 











ee 
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事实 上 ， 我 们 可 以 在 
区 分 诸如 肺结核 和 肺炎 以 及 其 他 包含 类 
E 状 下 每 个 疾病 的 后 验 概率 ， 医 生 可 以 判断 采取 什么 
时 也 叫 作 概率 专家 系统 。 


图 模型 中 的 结构 和 模式 ， 包 括 结构 的 类 型 和 属性 。 我 们 会 通过 
的 结果 和 模式 ，j 


如 果 同 一 个 事实 有 很 多 原因 ， 





中 指向 事实 。 在 变量 数目 不 多 
C1 一 C,， 它 们 都 是 二 元 变 
E 如 我 们 在 第 一 章 看 到 的 ， 相 应 的 








局 部 ) 





9。 如 
量 的 概 





标准 的 双 精 度 浮 点 
i 是 32GB ! 对 于 这 么 小 




















了 











值 ， 来 辨识 之 前 的 条 件 概率 。 这 个 数字 太 大 了 ! 





2 未 

















我 们 可 以 进一步 在 原 











而 是 引起 了 其 他 的 原因 。 在 这 种 情况 下 ， 我 们 给 出 原因 的 





(QD ”英文 版 为 2n+1， 有 误 。 

















因 上 推 

















二 9 因为 其 中 一 些 原 





个 值 ， 而 是 





拥有 大 个 














因 3 





没有 直接 的 与 事实 关联 ， 



































层级 ， 如 





图 2-5 所 示 。 





2.1 构建 图 模型 





图 2-5 














在 这 个 例子 中 ， 我 们 处 理 了 8 个 原因 ， 但 是 每 一 个 局 部 条 件 概 率 ， 例 如 
P(D1|C1,C2,C;) 最 多 只 涉及 4 个 变量 。 这 就 容易 处 理 了 。 

当 我 们 查看 变量 的 序列 时 ， 我 们 想到 了 另 一 个 结构 。 这 个 结构 不 会 捕捉 因果 
关系 而 是 捕捉 变量 在 时 间 上 的 顺序 。 这 也 是 一 种 非常 常见 的 结构 。 假 设 我 们 有 
个 随机 变量 来 表示 系统 在 时 间 + 上 的 状态 ， 并 假设 系统 的 当前 状态 可 以 预测 下 一 
刻 的 状态 。 因 此 ， 我 们 可 以 在 给 定 上 一 个 状态 PCUX i) 的 情况 下 ， 其 中 上 和 大 1 
表示 时 间 ， 回 答 当 前 系统 状态 的 概率 分 布 。 

接着 ， 假 设 在 每 一 个 时 刻 ， 设 想 的 系统 都 会 生成 一 个 值 ， 或 者 换 名 话说， 我 
们 可 以 间接 地 观察 系统 。 这 个 观察 结果 不 是 系统 的 状态 ， 而 是 对 其 有 直接 依赖 的 
童 息 。 因 此 确定 概率 P(OIX) 也 是 合理 的 ， 其 中 O 是 依赖 于 状态 的 观察 结果 。 最 
后 ， 我 们 把 这 些 讨论 放 在 一 起 ， 如 图 2-6 所 示 


图 2-6 


根据 随机 变量 XY 和 0 的 类 型 不 同 ， 这 个 图 有 几 个 名 字 。 当 变量 是 离散 的 ， 
正如 之 前 所 述 ， 这 个 模型 也 叫 作 隐 马 尔 可 夫 模 型 (Hidden Markov Model) ， 即 
状态 不 能 被 直接 观察 到 隐藏 的 ) 的 马尔 可 夫 模 型 (Markov Model)。 马 尔 可 夫 
模型 是 这 样 一 种 模型 ， 它 的 当前 状态 只 依赖 于 之 前 的 状态 。 在 这 个 图 中 ，X 只 依 
赖 于 已 :， 这 一 事实 清楚 地 建 模 了 马尔 可 夫 的 特性 这 个 属性 。 当 所 有 的 变量 服从 
高 斯 分 布 ( 而 且 不 是 离散 的 )， 这 就 是 著名 的 卡尔 曼 滤 波 器 (Kalman filter ) ! 
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概率 图 模型 引 人 注 目的 地 方 是 遗产 模型 ， 这 也 可 以 表示 成 图 模型 。 


你 一 定 还 记得 这 样 一 个 图 ， 边 都 是 有 向 的 《箭头 表示 )， 而 且 有 环 。 从 哲学 
的 角度 讲 ， 这 意味 着 一 个 结果 可 能 是 原因 的 原因 ， 这 有 点 矛盾 。 这 也 说 明 你 的 
表示 概率 分 布 的 分 解 公 式 可 能 不 完整 ， 这 在 数学 上 是 错误 的 。 例 如 你 不 能 写成 
P(ABC)=P(AIB)P(BIOP(CA) 


在 下 一 节 中 ， 我 们 会 看 到 如 何在 给 定 任何 图 形 中 其 他 变量 后 ， 计 算 后 验 概 
率 。 但 是 在 此 之 前 ， 让 我 们 看 最 后 一 幅 图 ， 它 是 之 前 图 形 的 综合 ， 如 图 2-7 所 示 。 
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这 个 图 形 很 有 意思 ， 它 在 同一 个 图 中 结合 了 两 个 隐 马 尔 可 夫 模 型。 但 是 其 中 
一 个 ， 友 也 是 另 一 个 模型 蕊 的 状态 的 原因 。 这 是 非常 有 力 的 结合 。 我 们 可 以 执 
行 逆向 训练 和 写 出 这 个 图 形 的 联合 概率 分 布 : 


POO)=POY a) : POW slY,,) 

















POYlY 2) * POW NY) 
已 到 六 POWIY,) 
PC) POPA) 
PCY Or 


PC 玉环 DPCO-KcD 





2.2 变量 消解 


2.2 变量 消解 

之 前 的 例子 令 人 印象 深刻 ， 而 且 似 乎 有 些 复杂 。 在 这 一 节 中 ， 我 们 会 看 到 如 
何 处 理 复杂 的 问题 ， 并 在 任 一 模型 上 执行 推断 。 事 实 上 ， 我 们 会 看 到 事情 并 不 像 想 
象 得 那么 完美 ， 还 是 有 一 些 限 制 。 而 且 ， 正 如 我 们 在 第 一 章 看 到 的 ， 当 人 们 处 理 # 
断 问 题 时 ， 他 需要 面 对 一 个 NP- 困难 问题 ， 即 导致 算法 有 指数 级 的 时 间 复 杂 度 。 


然而 我 们 有 动态 编程 算法 可 以 在 需要 推断 问题 中 达到 相当 高 的 效率 。 


回忆 一 下 ， 推 断 是 指 给 定 模 型 中 变量 子 集 的 观测 值 后 ， 计 算 其 他 变量 子 集 的 
后 验 概率 。 解 决 这 个 问题 通常 意味 着 我 们 可 以 选取 任 一 不 相交 的 子 集 。 


设 x 是 图 模型 中 所 有 变量 的 集合 ,了 Y 和 EE 是 两 个 不 相交 的 变量 子 集 ,，Y,E 
cx。 我 们 把 了 当 作 查询 子 集 ， 也 就 是 需要 知道 其 中 变量 的 后 验 概率 ， 把 EE 作为 
观测 子 集 ， 也 就 是 其 中 的 变量 都 有 观测 值 ， 也 称 为 证 据 〈 所 以 记 作 五 )。 


因此 根据 第 1 章 中 概率 推理 中 的 贝 叶 斯 理论 ， 得 到 一 个 查询 的 一 般 形 式 是 
P 


e) 
P(Y |E=e)= 。 事 实 上 ，P(Y,e) 可 以 看 作 了 上 的 函数 ， 使 得 P(Y,E=e) 
~ PO.e=P( 天 5 即 同时 有 于 y 和 E=e 的 概率 。 


最 后 ， 我 们 可 以 定义 EX 了 BE， 即 图 模型 中 既 不 是 查询 变量 又 不 是 观测 变 
量 的 变量 子 集 。 然 后 我 们 可 以 计算 PQy,e)= ,wy Pe,w)。 如 果 我 们 沿 下 进行 边 
缘 化 ， 我 们 只 有 P(Y,E)。 


如 果 使 用 同样 的 推理 ， 我 们 也 可 以 计算 证 据 PCE=e) 的 概率 ， 例 如 P(e)= >， 
PUBe)s 


因此 贝 叶 斯 推理 的 一 般 机 秆 
剩 下 要 查询 的 变量 。 


让 我 们 看 一 下 图 2-8 所 示 的 简单 例子 
©@0 © © © 
图 2-8 


这 个 图 模型 编码 了 下 列 概率 分 布 : 
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是 沿 着 不 需要 的 和 观测 到 的 变量 进行 边缘 化 ， 只 
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P(A4BCD)=P(A) : P(BIA) : P(CIB) PCODIO 
这 是 一 个 非常 简单 的 推理 链 ， 可 以 用 来 展示 变量 消解 算法 。 正 如 我 们 之 前 看 
到 的 ， 图 中 的 每 一 个 节点 都 关联 了 一 个 潜在 的 函数 ， 这 个 函数 在 类 似 于 此 的 有 向 
图 中 就 是 ， 给 定 父 节点 P(4)、P(B|4)、P(CIB) 和 P(DIC) 情况 下 的 条 件 概率 。 如 
果 P(4) 可 以 直接 从 图 中 的 关联 函数 中 读 出 ，P(B) 就 需要 通过 沿 4 边缘 化 计算 得 
出 : P(B)= 5,P(BIa)P(a). 
它 看 起 来 很 简单 ， 但 是 也 可 以 变 得 计算 量 很 大 (好 吧 ， 也 许 没 那 么 大 )。 如 
果 4 eR*，B eR”( 即 ,，4 有 kk 个 可 能 的 值 ，B 有 m 个 可 能 的 值 )， 执 行 之 前 的 
求 和 需要 2m : fm 次 操作 。 为 了 理解 这 个 论断 ， 我 们 写 出 求 和 公式 : 





























































































































P(B =i)=2, P(Aa)P( B= i| a) 
P(A=1)P(B=1|4=1)+ 
P(A=2)P(B=1|4=2)+ 


P(A=AP(B=1|A=A) 


这 个 公式 需要 计算 B 的 每 一 个 m 值 。 


完成 这 个 操作 后 ， 我 们 边缘 化 4。 我 们 可 以 说 ， 得 到 了 一 个 等 价 的 图 模型 ， 


如 图 2-9 所 示 。 
3 © © © 


图 2-9 















































这 里 ，B 的 分 布 已 经 通过 4 的 信息 进行 了 更 新 。 如 果 我 们 想 找 出 C 的 边缘 
分 布 ， 我 们 可 以 使 用 相同 的 算法 ， 获 取 P(C)。 同 样 ， 我 们 可 以 获得 PLD)。 最 终 ， 
为 了 获取 P(D)， 我 们 所 做 的 一 切 有 下 列 完整 求 和 形式 : 


P= > 3 Pd)PBCI4).PCIB):.P(CDIC) 
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但 是 ， 因 为 每 一 次 求 和 中 我 们 只 需要 关注 特定 的 变量 ， 我 们 可 以 重 写 求 和 











P(OD)=》 PODIC》 ， PCCI BB, PC)PBI4) 








这 极 大 地 简化 了 计算 量 ， 因 为 求 和 操作 只 需要 使 用 局 部 分 布 。 作 为 练习 ， 我 
想 让 读者 展示 ， 对 于 给 定 的 概率 图 模型 ， 表 示 R 中 个 变量 的 链 ， 然 后 计算 复 
杂 度 只 有 O(K)。 注 意 ，O 记号 表示 ， 计 算 时 间 的 上 界 与 括号 中 的 函数 成 比例 (也 
称 作 最 差 时 间 复 杂 度 )。 很 明显 ， 这 个 方案 已 经 很 有 效 。 


这 个 例子 中 的 主要 思想 是 ， 我 们 可 以 对 变量 求 和 ， 并 在 下 一 步 中 重用 之 前 的 
果 。 理 想 情况 下 ， 我 们 希望 对 任何 图 形 使 用 同样 的 思想 ， 然 后 通过 暂 存 中 间 结 
来 逐步 消解 变量 。 这 是 可 以 做 到 的 ， 因 为 得 益 于 图 模型 的 结构 ， 每 一 个 求 和 步 
中 的 表示 只 依赖 少数 变量 ， 我 们 可 以 把 结果 沿 着 图 中 的 路 径 辕 存 起 来 。 
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在 计算 一 个 变量 (或 者 变量 子 集 ) 的 分 布 时 ， 主 要 操作 是 边缘 化 。 边 缘 化 通 
过 在 一 个 变量 《或 者 变量 子 集 ) 上 求 和 来 把 变量 从 表达 式 中 消解 出 去 。 如 果 我 们 
把 g 叫 作 联合 概率 分 布 分 解 中 的 一 个 因子 ， 我 们 可 以 使 用 如 下 属性 ， 像 之 前 章节 
中 看 到 的 ， 来 泛 化 和 优化 变量 消解 算法 : 







































































国 ” 对 称 律 : O102 一 0201o 
国 结合 律 : (1°92) "93=01 (03°93)° 





加 如 果 X Eg9: > (010)= 9 pa。 
如 果 我 们 再 次 使 用 这 些 属性 ， 处 理 之 前 章节 中 的 联合 分 布 PL(4BCD)， 我 们 有 : 


0 DD 0 而 出 
-E35, ww 人 (Zoo) 
= 2 gp C,, 9c (2 Dap ) 
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最 后 ， 反 复出 现 的 主要 表达 式 是 在 一 个 因子 上 的 和 积 结果 ， 可 以 写作 


] so。 
因此 ， 通 常 如 果 我 们 可 以 找到 有 向 图 模型 中 因子 或 变量 的 优质 顺序 ， 正 如 之 
前 看 到 的 ， 我 们 就 可 以 使 用 和 积 公 式 ， 逐 步 消 解 每 一 个 变量 直到 得 到 想 要 的 子 集 。 


顺序 必须 可 以 边缘 化 每 一 个 包含 待 消除 变量 的 因子 ， 生 成 可 以 再 次 使 用 的 新 


因子 。 
一 种 可 能 的 执行 方式 是 使 用 下 列 算法 《概率 图 模型 》(Probabilistic Graphical 


Models)，D. Koller，N. Friedman，2009，MIT 出 版 社 )， 叫 作 和 积 变量 消解 算法 
(Sum-product Variable Elimination Algorithm ): 
国 中 : 因子 集合 。 
国 Z: 要 消解 的 变量 集合 。 
国 <: Z 上 的 序 。 
1. 设 Z,..，Z 是 Z 上 的 序 ， 满足 当 且 仅 当 i < 六 


2. 循环 二 1, .… ,k。 






































































































































3. @D=SumProductEliminateVar(®@,Z';)。 

4. w= |] sw 

5. 返回 p*。 

这 个 算法 执行 如 下 : 当 收 到 消解 变量 或 因子 的 顺序 后 ， 对 每 一 个 变量 〈 或 因 
子 ) 使 用 算法 消解 变量 并 使 用 这 个 函数 《后面 会 定义 ) 的 结果 缩小 因子 集合 。 然 
后 乘 以 剩 下 的 因子 并 返回 结果 。 

子 过 程 如 下 ， 目 的 是 一 次 消除 一 个 变量 : 

和 积 消解 算法 〈@ : 因子 集合 ，Z : 要 消解 的 变量 ): 































































































1. PD’'=9¢€ PD:Z eScopel(g)。 
2. 路 = 中 下。 


3. Y=] |。 
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4. T= 


返回 "fr 











MCA 


乘 上 变量 Z 出 现时 的 潜在 函数 ， 人 然后 边缘 化 (第 4 行 ) 消解 变量 Z。 最 后 ， 算 法 
返回 因子 集合 ， 这 集合 已 经 去 掉 所 有 包含 Z 的 因子 (第 2 行 )。 新 的 和 积 因 子 通 
过 对 7 的 边缘 化 得 到 ， 并 添加 进来 〈 第 5 行 )。 同 时 注意 ， 第 1 行 选取 了 包含 所 
了 待 消解 的 变量 Z 的 因子 。 


第 二 个 步骤 就 是 完成 了 我 们 在 之 前 的 例子 中 逐步 消解 的 行为 。 这 个 思想 首先 




































































最 后 ， 当 这 个 过 程 按 变 量 顺序 执行 ， 我 们 可 以 逐个 消解 变量 直到 获得 期 望 的 


















































让 我 们 看 看 这 个 过 程 有 


上 











下 列 例子 上 是 如 何 工 作 的 ， 如 图 2-10 所 示 。 
Ps 
O09 O09 
@ 


是 分 解 形式 : P(4BCD)=P(4) : P(B|4): P(CIB) : P(DIB)。 条 件 概 率 分 布 由 如 
下 矩阵 定义 : 




















图 2-10 


A =matrix(c(0.8, 0.2), 2, 1) 

B =nmatrix(e(06, O04 O03 O77) 2 2) 
C =matrix(C(0.5, O05; 0:8, 0.8), 27 2) 
D: =matrix(e(0,.3, O07, Qsd; O06); 2 2) 








条 件 概 率 分 布 用 矩阵 中 的 列表 示 。 例 如 ，B 是 : 





[x2 Lad 
[> O06 03 
[2， 0 .4 0.7 


要 消解 的 变量 集合 是 {4,8,C}， 因 此 最 终 获 得 的 是 DD 的 边缘 概率 分 布 。 我 们 
可 以 逐步 使 用 算法 : 














mt 
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Ik 
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学 
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二 
EE 
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烟 
es 
流 
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本 0.6 0.4) (0.48+0.06) (0.54) ， 
A :B =(0.8 0.2)x = = =B 
0.3 0.7 0.32+ 0.14 0.46 
2. 执行 同样 的 过 程 ， 复 用 之 前 的 结果 ， 继 续 消 解 B 获得 P(C,D)。 在 第 一 个 
算法 的 第 3 行 中 ， 你 可 以 看 到 通过 9 调用 SumProductEliminateVar 的 结果 
指派 给 了 p。 这 里 使 用 了 之 前 步骤 的 结 


2 0.5 0.51 (0.638) 
BT .CT =(0.54 0.14)x = =C 
0.8 0.2) \0.362 
































3. 现在 ， 我 们 只 剩 下 两 个 变量 C 和 DD， 我 们 需要 使 用 第 二 个 算法 中 的 同样 
步骤 消解 C : 








有 0.3 0.7 
C7.D7=(0.638 oaex| | 


0.3362 
0.4 0.6 


| 




















在 R 中 ， 你 可 以 使 用 下 列 代码 ， 迅 速 地 得 到 结果 : 








Bs =t(A) %*%t (B) 
Cs =Bs %*%t (C) 
Ds =Cs %*%t (D) 


[,1] [,2] 
il;sl O053362 "00638 


最 后 ， 我 们 还 有 3 个 问题 : 

国 如 果 我 们 观察 到 一 个 变量 ， 该 如 何 计 算 其 他 变量 子 集 的 后 验 概 率 ? 

国 是 否 可 能 自动 找 出 变量 的 最 优 (或 者 至 少 非常 高 效 ) 序列 ? 

国 如 果 存 在 这 样 的 序列 ， 我 们 是 否 可 以 应 用 到 任何 类 型 的 图 中 ， 特 别 是 带 
有 回路 的 图 中 ? 

第 一 个 问题 的 答案 很 简单 ， 我 们 只 需要 通过 实例 化 p[E=e] 蔡 换 每 一 个 因子 
9g。 但 是 如 果 我 们 使 用 之 前 的 算法 ， 我 们 会 得 到 P(Z,e)， 其 中 Z 是 查询 子 集 。 所 
以 我 们 还 需要 正则 化 ， 根 据 贝 叶 斯 公式 ， 获 取 期 望 的 后 验 条 件 概率 。 


之 前 的 算法 可 以 扩展 成 如 下 形式 : 


















































































































































四 0 =》 ,zy9 (7)， 其 中 y'=P(Z,e) 是 之 前 计算 的 边缘 分 布 。 








国 P(Y| e)= Pe) 


我 们 会 在 本 章 中 ， 使 用 
算法 也 是 当今 概率 图 模型 中 最 基础 的 算法 。 
变量 聚 类 的 树 中 。 这 样 我 们 就 可 以 使 用 之 前 














的 计算 成 本 。 





2.4 联结 树 算法 


在 这 一 节 中 ， 我 们 会 对 概率 
树 算 法 。 这 个 名 字 是 来 源 于 下 列 事 
型 转换 为 一 个 树 ， 它 的 一 些 属性 
算法 的 其 中 一 个 特点 是 
他 未 被 观察 到 的 变量 后 验 概 率 分 布 。 因 























何 变量 的 分 布 。 





为 了 得 到 这 样 的 结果 ， 联 结 树 


Pl(Y,e) 
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计算 查询 中 的 后 验 概率 分 布 ， 它 还 计算 所 有 其 
此 ， 对 于 同样 计算 代价 ， 
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联结 树 的 算法 回答 第 二 和 第 三 个 问题 
它 试 区 把 任何 类 型 的 图 形 转换 成 具有 




















。 这 个 
































J 已 








直 计 算 之 前 ， 
效 计 算 。 


























与- 











以 及 变量 消解 过 程 的 通用 | 























(除了 带 有 回路 的 图 中 )， 








的 树 。 














联结 树 算 法 基于 下 列 | 
PLD) : P(B|4) : P(CIB) - P(DIC)， 对 每 一 个 因子 使 用 


事实 上 ， 变 量 
和 积 算法 可 以 保存 中 间 结 果 以 便 使 计算 高 效 。 
消解 算法 只 能 用 在 树 中 ， 我 们 需要 把 


Hh 


者 


法 结合 了 信 : 











和 转换 为 表示 等 

































































法 ， 同 时 保证 最 优 顺序 和 最 小 化 





它 叫 作 联 结 


我 们 会 把 概率 图 模 

















我 们 可 以 得 到 任 


念 传播 和 之 前 和 积 算法 的 效率 ， 
EE 消解 算法 可 以 用 在 任何 类 型 的 树 上 




















因为 变量 





价 分 布 分 解 形式 


思想 。 让 我 们 还 以 之 前 熟悉 的 例子 为 例 ，P(4BCD)= 
贝 叶 斯 规则 : 





P(4BCD)=P(4)， 





这 个 公式 非常 有 意思 ， 





推断 的 重要 指标 。P(B) 和 P(D) 是 上 述 集 


用 的 聚 类 交集 。 





当然 ， 这 并 非 一 直通 用 的 方法 ， 





P(B) 


因为 我 们 把 集合 {4,8})、 
中 的 变量 作为 分 母 。 这 种 初始 分 解 的 重 参数 化 是 转换 图 


P(B):.P(D) 


{B,C} 和 {B,C}、{C,D} 交集 
模型 和 在 转换 结果 上 进行 











但 




















P(4,B) P(B,C) P(C,D) P(A4,B):P(BC):P(C,D 
P(A) 





合 之 间 分 子 的 概率 分 布 ， 也 就 是 说 ， 可 





英 型 构建 树 模型 ， 并 执行 推断 的 
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有 用 观察 结果 。 
联结 树 的 构建 经 过 4 个 步 又， 最 终 把 图 模型 转换 成 树 。 
1. 对 图 模块 化 ， 包 括 使 用 无 向 边 连接 每 一 个 结 点 的 父 节 点 对 ， 如 图 2-11 所 示 。 
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2. 然后 图 形 被 转换 成 一 个 无 向 图 ， 其 中 每 一 个 箭头 都 被 一 般 的 边 替 代 。 前 
两 步 操 作 的 结果 是 每 一 个 变量 (图 中 的 结 点 ) 和 父 节 点 现在 都 在 同一 个 团 中 ， 即 
所 有 的 结 点 都 在 相互 连接 的 子 图 中 。 

3. 接着 对 图 三 角 化 : 当 图 有 回路 时 ， 变 量 消解 的 结果 以 及 导出 图 的 再 表示 
等 价 于 给 两 个 属于 同一 个 无 向 回路 的 变量 添加 边 。 我 们 之 前 看 到 一 个 简单 的 例 
子 : 消解 变量 4 得 到 新 图 。 当 图 有 回路 时 ， 这 个 消解 步骤 等 价 于 给 两 个 结 点 添加 
套 索 。 我 们 需要 首先 在 图 中 执行 这 个 步骤 。 如 图 2-12 所 示 ， 虚 线 来 源 于 三 角 化 ， 
而 实 线 源 自 之 前 的 两 步 。 















































图 2-12 
4. 最 后 一 步 会 把 三 角 化 的 图 转换 为 一 个 聚 类 树 ， 其 中 每 个 结 点 表示 变量 子 





集中 的 因子 。 子 集 由 图 中 的 每 一 个 团 决定 。 在 每 一 个 聚 类 节点 之 间 ， 我 们 还 有 另 
外 一 种 节点 ， 叫 作 分 隔 节 点 。 回 忆 一 下 本 节 开 始 时 第 一 个 简单 的 例子 ， 当 时 我 们 
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2.4 ”联结 树 算法 
使 用 类 似 的 技术 重 参 数 化 了 模型 ， 这 里 也 执行 了 同样 的 操作 ， 但 是 是 在 任意 类 型 
的 图 形 上 。 聚 类 树 的 计算 如 下 : 
国 找 出 三 角 化 图 中 每 一 个 团 ， 并 从 这 些 团 给 单个 节点 加 入 新 的 节点 。 
国 计算 图 上 的 最 大 扩展 树 。 联 结 树 就 是 一 个 最 大 扩展 树 。 
因此 从 得 到 的 聚 类 树 ， 或 者 说 是 联结 树 上 ， 我 们 有 两 种 类 型 的 结 点 : 聚 类 结 
点 和 分 隔 结 点 。 更 一 般 的 是 ， 类 似 于 我 们 最 开始 的 例子 ， 联 结 树 的 概率 分 布 等 于 ; 


























其 中 g(c) 是 联结 树 每 一 个 聚 类 的 因子 ，p(S) 是 联结 树 每 一 个 分 隔 的 因子 。 让 
我 们 从 《 贝 叶 斯 推理 和 机 器 学 习 》(D.Barber 剑桥 大 学 出 版 社 ，2012) 的 一 个 例 
子 中 看 一 下 完整 转换 的 过 程 ， 如 图 2-13 所 示 。 
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现在 ， 基 于 初始 图 形 的 三 角 化 的 无 向 图 如 图 2-14 所 示 。 























最 终 ， 联 结 树 如 图 2-15 所 示 。 
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图 2-15 


联结 树 上 的 推断 是 通过 从 一 个 聚 类 传递 信息 给 另 一 个 聚 类 实现 的 ， 传 递 的 路 
径 有 两 种 : 自 顶 向 下 和 自 底 向 上 。 完 成 聚 类 之 间 的 完整 信息 更 新 后 ， 每 一 个 聚 类 
都 会 包含 自身 变量 的 后 验 概 率 分 布 〈 例 如 ， 例 子 中 顶层 结 点 的 PUBC))。 最 后 ， 
找 出 任意 变量 的 后 验 概率 都 可 以 归结 为 对 其 中 一 个 聚 类 使 用 贝 叶 斯 规则 ， 并 边缘 
化 我 们 不 感 兴趣 的 那些 变量 。 

联结 树 的 实现 算法 是 一 个 复杂 的 任务 ， 但 是 幸运 的 是 ， 一 些 R 程序 包 已 经 
包含 了 完整 的 实现 过 程 。 你 也 用 过 它们 了 。 在 第 1 章 中 ， 我 们 看 一 些 使 用 gRain 
程序 包 进 行 贝 叶 斯 推断 的 简单 例子 。 推 断 算法 就 是 联结 树 算法 。 

作为 练习 ， 我 们 会 使 用 之 前 的 一 个 例子 构建 一 个 试验 。 例 子 中 包含 变量 4、 
B、C、D、E 和 万 。 简单 起 见 ， 我 们 会 考虑 每 一 个 变量 都 是 二 元 的 ， 以 便 我 们 不 
用 处 理 太 多 的 值 。 我 们 会 假定 下 列 分 解 过 程 : 

P(ABCDEF)=PO) POP PED : P(AIO) : PODIE) : P(BIAD) 
这 个 公式 可 以 用 图 2-16 表示 。 








































































































2.4 ”联结 树 算法 


我 们 首先 给 R 加 载 gRain 程序 包 : 





library (gRain) 


然后 创建 从 A 到 下 的 随机 变量 集合 : 





val =c("true", "false") 

F =cptable(~F, values =c(10, 90), levels = val) 

C =cptable(~C |F, values =c(10, 90, 20, 80), levels = val) 

E =cptable(~E |F, values =c(50, 50, 30, 70), levels = val) 

A =cptable(~A |C, values =c(50, 50, 70, 30), levels = val) 

D =cptable (~D |E, values =c¢(60, 40, 70, 30), levels = val) 

B =cptable (~B |A:D, Values =c(60, 40, 70, 30, 20, 80, 10, 90), levels = val) 





也 许 你 还 记得 ， 函 数 cptable 创建 一 个 条 件 概率 表 ， 它 是 离散 变量 的 因子 。 
与 每 一 个 变量 关联 的 概率 只 取决 于 和 服务 于 当前 的 例子 。 

因为 ， 我 们 在 创建 条 件 概 率 表 的 时 候 已 经 给 出 了 每 一 个 变量 的 父 节 点 ， 我 们 
ned ele ee 在 大 多 数 程 序 包 中 ， 
计算 联结 树 都 是 通过 调用 一 个 函数 完成 的 。 算 法 会 在 一 次 运行 中 完成 所 有 的 事情 : 


这 里 ， 我 们 运行 如 下 命令 : 













































































plist =compileCPT (list(F, FE, C, A, D, B)) 
plist 


仿 查 已 经 正确 编译 到 概率 图 模型 中 的 变量 列表 ， 从 之 前 的 代码 中 获取 列表 : 








CPTspec with probabilities: 


) 
) 
) 
) 
B IAD) 


这 里 事实 上 是 概率 分 布 的 分 解 过 程 ， 如 前 所 述 。 如 果 我 们 想 进 一 步 检查 ， 我 
们 可 以 查看 一 些 变量 的 条 件 概率 : 


print (Blisté$E) 
print (plist$B) 


结果 如 同 设想 的 一 样 ， 条 件 概率 表 如 下 : 


F 




















true false 
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B true false 
true 0-6 0s 
false 0.4 O03 


， , D =false 


B true false 
true 0.2 四 
false 0.8 四 二 


第 二 个 输出 有 些 复杂 ， 但 是 如 果 你 仔细 看 一 下 会 发 现 两 个 分 布 : P(B|4,D=true) 
和 P(BI4,D=false)。 它 们 比 P(B|4,D) 要 易 读 。 


最 终 ， 我 们 创建 了 图 模型 ， 并 通过 下 列 命令 调用 联结 树 算法 : 






































jtree =grain (plist) 


再 次 检查 得 到 的 结果 : 





jtree 
Independence network:Compiled:FALSE Propagated:FALSE 
Nodes:chr [Ls] Ew 性 已 m ve i nmDnm "BB" 


现在 ， 你 会 想 ， 就 这 么 多 吗 ? 是 的 。 有 了 联结 树 的 图 表示 ， 你 就 可 以 执行 
任何 可 能 的 推理 。 而 且 ， 你 只 需要 计算 联结 树 一 次 。 所 有 的 查询 都 可 以 使 用 同 
一 个 联结 树 。 当 然 ， 如 果 你 改变 了 联结 树 ， 你 就 要 重新 计算 。 让 我 们 执行 几 个 
查询 : 





























querygrain(jtree, nodes=c("F"), type="marginal") 
$F 
F 
true false 
0s1 OS) 


如 果 你 需要 下 的 边缘 分 布 ， 你 会 拿 到 初始 的 条 件 概 率 表 ， 因 为 王 没 有 父 节 
点 。 至 少 我 们 知道 这 个 过 程 是 可 行 的 ! 








querygrain(jtree, nodes=c("C"), type="marginal") 
$C 
Cc 
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true false 
0Q.19 Qs81 


这 更 加 有 意思 ， 因 为 当 我 们 在 给 定 五 的 情况 下 ， 只 声明 C 的 条 件 概 率 分 布 
时 ， 它 计算 了 C 的 边缘 分 布 。 我 们 不 需要 复杂 的 算法 ， 例 如 联结 树 算法 来 计算 
这 么 小 的 边缘 分 布 。 之 前 看 到 的 变量 消解 算法 也 足够 了 。 


但 是 如 果 你 需要 B 的 边缘 分 布 ， 变 量 消解 就 不 够 用 了 ， 因 为 图 中 有 环 。 然 而 
联结 树 算 法 可 以 给 出 下 列 结果 : 






























































querygrain(jtree, nodes=c("B"), type="marginal") 
$B 
B 
true false 
0.478564 0.521436 


我 们 可 以 查询 更 加 复杂 的 分 布 ， 例 如 B 和 4 的 联合 概率 分 布 : 


querygrain(jtree, nodes=c("A","B"), type="joint") 
B 
A true false 
true 0.309272 0.352728 
false 0.169292 0.168708 





事实 上 ， 任 何 联合 分 布 都 可 以 给 出 : 
querygrain(jtree, nodes=c ("A","B","C"), type="joint") 
7 7/ B =true 
A 
C true false 


true 0.044420 0.047630 
false 0.264852 0.121662 


， , B =false 


C true false 
true. O050580 ‘0047370 
false 0.302148 0.121338 


现在 我 们 想 观 察 变 量 并 计算 后 验 分 布 。 假 设 F=true， 我 们 想 把 这 个 信息 传 
播 到 网 络 中 的 其 余部 分 : 





jtree2 =setEvidence (jtree, evidence =list(F ="true")) 





第 2 章 精确 推断 


我 们 可 以 再 次 查询 网 络 : 
































querygrain(jtree, nodes=c("F"), type="marginal") 
$F 
F 
true false 
,0 Qa 
querygrain (jtree2, nodes=c("F"), type="marginal") 
$F 
F 
true false 
让 0 
这 个 查询 最 有 意思 : 在 jtree 的 第 一 个 查询 中 ,我 们 有 的 边缘 分 布 ， 在 
jtree2 的 第 二 个 查询 中 ,我 们 有 ... P(F=true) = II 事实 上 ， 我 们 可 以 














在 网 络 中 设置 一 个 证 据 ， 即 F=true。 这 样 概率 就 是 1 了。 更 加 有 趣 的 是 ， 我 们 
可 以 查询 联合 分 布 或 者 边缘 分 布 : 

















querygrain(jtree, nodes=c("A"), type="marginal") 
$A 
A 
true false 
0.:662 0.338 


querygrain(jtree2, nodes=c("A"), type="marginal") 
$A 
A 

true false 

068 W032 


这 里 我 们 看 到 F=true 改变 了 4 上 的 边缘 分 布 〈 第 二 个 查询 再 次 使 用 jtree2， 
即 带 有 证 据 的 树 )。 


我 们 可 以 查询 任何 其 他 的 变量 (看 看 结果 有 什么 不 同 ): 














十 : 
= 








querygrain(jtree, nodes=c("B"), type="marginal") 
$B 
B 

true false 


0.478564 0.521436 


querygrain(jtree2, nodes=c("B"), type="marginal") 
$B 
B 





2.5 概率 图 模型 示例 





true false 
0:4696 0.5304 


最 后 ， 我 们 可 以 设置 更 多 证 据 并 在 网 络 中 把 它们 进行 前 向 和 后 向 传播 ， 也 可 









































以 计算 逆 概率 : 


jtree3 =setEvidence (jtree, evidence =list(F ="true", A ="false")) 


这 里 我 们 设 F=true，A=false 并 再 次 查询 网 络 ， 看 看 设置 证 据 前 后 结果 









































的 不 同 : 
querygrain(jtree, nodes=c("C"), type="marginal") 
$C 
C 
true false 
QL OL 
querygrain(jtree2, nodes=c ("CcC"), type="marginal") 
$C 
@ 


true false 
0.0989819:0.9010181 


querygrain(jtree3, nodes=c("C"), type="marginal") 
$C 
© 
true false 
0.15625 0.84375 


正如 期 望 的 ， 知 道 4 和 五 的 值 可 以 极 大 地 改变 C 的 概率 分 布 。 作 为 练习 ， 





读者 可 以 设置 下 的 证 据 (然后 是 8)， 看 看 4 的 后 验 概 率 的 变化 。 





2.5 概率 图 模型 示例 


扬 的 





在 最 后 一 部 分 中 ， 我 们 会 给 出 几 个 概率 图 模型 的 例子 。 它 们 都 是 理解 精确 推 
优秀 示例 。 这 一 部 分 的 目的 是 展示 实际 的 但 是 简单 的 例子 ， 给 读者 提供 一 些 
































开发 自己 模型 的 思路 。 


2.5 

















过 程 。 


.1 酒水 器 例子 























这 是 一 个 在 很 多 书本 中 提 到 的 久远 的 例子 。 它 很 简单 ， 但 是 可 以 展示 一 些 推 
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假如 我 们 在 照看 花园 ， 草 地 是 湿 的 。 我 们 想 知 道 草地 为 什么 是 湿 的 。 有 两 种 
可 能 : 之 前 下 过 雨 或 者 我 们 忘记 关 掉 洒水 器 。 而 且 ， 我 们 可 以 观察 天 空 。 如 果 是 
多 云天 气 ， 就 有 可 能 之 前 下 过 雨 。 但 是 ， 如 果 是 多 云天 气 ， 我 们 很 有 可 能 不 会 打 
开 洒 水 器 。 因 此 在 这 个 例子 中 ， 我 们 更 有 可 能 相信 ， 我 们 并 非 忘 记 关 掉 洒 水 器 。 
这 是 一 个 因果 推理 的 简单 例子 ， 可 以 用 概率 图 模型 表示 。 我 们 可 以 确定 4 个 


三 | 


随机 变量 : cloudy, sprinkler, rain 和 wetgrass。 每 一 个 都 是 二 元 变量 。 


























































































































我 们 可 以 给 出 所 有 的 先 验 分 布 。 例 如 ，P (cloudy=true) = P(cloudy=false) 
=0.5。 

对 于 其 他 的 变量 ， 我 们 可 以 设 定 条 件 概率 表 。 例 如 ， 变 量 rain 可 以 按照 对 
2-1 定义 。 

















让 

















表 2-1 
cloudy P(rain=T | cloudy) P(rain=F | cloudy) 
True 0.8 0.2 

False 0.2 0.8 











读者 可 以 想象 一 下 其 他 概率 表 。 
概率 图 模型 如 图 2-17 所 示 。 











图 2-17 


2.5.2 ”医疗 专家 系统 

表示 医疗 知识 的 一 种 方法 是 把 症状 和 原因 连接 起 来 。 背 后 的 推理 是 证 明 这 些 
原因 可 以 导致 可 观测 的 症状 。 问 题 是 我 们 有 很 多 症状 ， 而 且 它 们 中 有 许多 的 原因 
都 是 相同 的 。 

































































用 概率 图 模型 表示 医疗 知识 库 的 
是 症状 节点 。 












































































































































2.5 概率 图 模型 示例 
思想 包括 两 层 节 点 : 一 层 是 原因 节点 ， 一 层 
每 个 节点 的 条 件 概率 表 都 会 强化 或 弱化 症状 和 原因 之 间 的 连接 ， 以 便 更 好 地 
表示 每 个 症状 最 可 能 的 原因 。 
依据 关联 的 复杂 程度 ， 模 型 可 能 是 优良 的 推理 模型 ， 也 可 能 是 欠 佳 的 模型 而 
不 利于 精确 推断 。 
而 且 ， 表 示 大 型 概率 表 可 能 会 是 个 问 
而 ， 使 用 寻 
概率 图 








题 。 因 为 ， 有 太 多 的 参数 需要 而 
实数 据 库 ， 我 们 可 以 学 习 参 数 。 在 下 一 章 中 ， 我 们 会 看 到 如 何 学 习 参 数 。 
模型 如 图 2-18 所 示 。 

















外 定 。 然 








在 这 个 模 


















































图 2-18 

型 中 ， 我 们 看 到 现象 2 和 现象 3 有 3 个 父 节 点 。 在 更 实际 的 医疗 
模型 中 这 样 的 父 节 点 更 多 。 例 如 ， 头 痛 症 状 可 以 

例子 中 ， 使 用 近似 方案 来 对 

Noisy-OR 模型 。 





日 很 多 不 同 的 原 
攻 示 与 点 关联 的 条 们 








因 引 起 。 在 这 个 
概率 表 也 是 可 能 的 。 常 用 的 模型 叫 


2.5.3 ”多 于 两 层 的 模型 




























































































不 像 之 前 的 例子 ， 多 于 两 层 的 模型 在 许多 应 用 中 更 有 意义 ， 它 拥有 更 深 的 因 
果 推 理 过程 ， 而 且 每 一 个 节点 上 都 有 相应 的 原因 和 结果 。 对 于 理解 问题 本 身 的 结 
构 也 很 自然 。 
在 这 一 类 例子 中 ， 模 型 的 复杂 度 并 没 
节点 间 的 关系 简 六 

















理论 限制 ， 但 是 我 们 
化 。 例 如， 每 个 节点 拥 





vr LL, 




















直 币 


会 建议 保证 
有 不 超过 3 个 父 节点 是 比较 好 
如 果 确实 是 这 样 ， 稍 微 深度 地 研究 一 下 这 些 关系 还 是 值得 的 ， 可 以 看 看 模型 是 否 


























的 策略 。 
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可 能 进一步 分 解 。 
例如 ，J. Binder D. Koller S. Russell 和 及. Kanazawa 的 文章 Adaptive Probabilistic 
Networks with Hidden Variables, Machine Learning, 29(2-3):213-244, 1997, 介绍 了 
一 个 模型 可 以 用 来 估计 一 个 汽车 保险 客户 可 能 的 声明 损失 。 

在 这 种 模型 中 ， 采 用 更 多 层 的 模型 来 表示 关于 汽车 保险 的 知识 。 图 2-19 给 
出 了 这 个 模型 ， 隐 含 节点 用 阴影 表示 ， 输 出 节点 使 用 粗 框 表示 。 


上 GoodStudent 
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| CC Gm 


pe 
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图 2-19 


























有 时 ， 模 型 可 能 会 很 复杂 ， 但 是 依然 可 用 。 例 如 ，S. Andreassen, F. V. Jensen， 
S. K. Andersen, B. Falck, U. Kjarulff, M. Woldbye, A. R. Serensen, A. Rosenfalck 和 下. 
Jensen 的 书 MUNIN - an Expert EMG Assistant. In Computer-Aided Electromyography 
and Expert Systems (Elsevier (Noth-Holland), 1989.) 第 12 章 设 计 了 一 个 复杂 的 网 络 。 

这 里 我 们 展示 了 一 个 非常 大 的 概率 图 模型 ， 它 来 自 于 RR 程序 包 pnlearn 
(http://www.bnlearn.com/)。 


R 程序 包 bnlearn 可 以 通过 CRAN 程序 库 获取 ， 按 照 其 他 程序 包 一 样 的 方 









































2.5 概率 图 模型 示例 











下 图 展示 了 之 前 文章 中 提 到 的 模型 。 这 个 模型 有 1 041 个 节点 和 1 397 条 边 。 


很 明显 ， 手 动 设 定 所 有 的 参数 是 不 可 能 的 。 这 种 类 型 的 概率 图 模型 需要 从 数 
据 中 学 习 得 到 。 但 是 它 确实 是 一 个 很 有 意思 的 复杂 模型 ， 如 图 2-20 所 示 。 








而 






















































































2.5.4 树 结构 

树 结构 的 概率 图 模型 是 一 种 有 意思 的 模型 。 它 通常 可 以 生成 非常 高 效 的 推 
理 。 建 模 变 量 之 间 关 系 的 思想 很 简单 ， 每 个 节点 都 只 有 一 个 父 节点 ， 但 是 可 以 有 
很 多 子 节 点 。 

因此 对 于 模型 中 的 任意 变量 ， 我 们 一 直 在 表示 那些 可 以 用 PO 妃 编码 的 简 
单 关 系 。 
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图 2-21 给 出 了 这 样 一 个 模型 。 




















在 这 个 模型 中 ， 由 联结 树 算法 生成 的 节点 艇 总 是 由 两 类 节点 构成 : 子 节 点 和 
父 节 点 。 因 此 ， 这 个 模型 可 以 保证 联结 树 算法 的 复杂 度 较 低 ， 并 支持 快速 推断 。 


当然 ， 所 有 这 些 节 点 都 可 以 连接 在 一 起 ， 如 果 问 题 需要 的 话 可 以 形成 更 加 复 
杂 的 模型 。 这 些 都 只 是 例子 ， 也 鼓励 读者 开发 自己 的 模型 。 读 者 可 以 首先 理解 关 
注 节 点 之 间 因 果 关 系 是 什么 样 的 。 

而 且 我 们 也 可 以 挖掘 领域 的 结构 知识 来 设计 新 的 模型 。 逐 步 方 案 通常 是 个 不 
错 的 选择 。 读 者 可 以 从 非常 简单 的 仅 有 几 个 节点 的 模型 开始 ， 执 行 查询 看 看 模型 
的 表现 如 何 ， 然 后 再 扩展 模型 。 

给 这 样 的 模型 设 定 参数 是 个 困难 的 事情 ， 在 下 一 章 中 ， 我 们 会 研究 算法 来 从 
数据 中 学 习 参 数 ， 使 有 效 的 概率 图 模型 开发 任务 更 加 简单 。 

























































































































































































2.6 小 结 

在 第 2 章 中 ,我 们 介绍 了 推断 的 基础 知识 ， 并 看 到 计算 后 验 概率 的 最 重要 
的 算法 : 变量 消解 和 联结 树 算法 。 我 们 学 习 了 如 何 考虑 因果 关系 、 时 序 关 系 以 及 
确定 变量 之 间 的 模式 来 构建 图 模型 。 我 们 接触 了 图 模型 的 一 些 基 础 特征 ， 支 持 组 
合 图 形 构 建 更 加 复杂 的 模型 。 我 们 学 习 了 如 何在 R 中 使 用 联结 树 算法 执行 推断 ， 





= 













































































[ 56 1 





2.6 小 结 

















并 看 到 同样 的 联结 树 可 以 用 到 边缘 分 布 和 联合 分 布 任何 类 型 的 查询 。 在 最 后 一 节 
中 ， 我 们 看 到 几 个 现实 世界 的 概率 图 模型 例子 。 概 率 图 模型 通常 是 精确 推断 的 优 
良 备 选 方案 。 

在 这 一 章 里 ， 我 们 在 定义 一 个 新 的 图 模型 时 遇 到 了 一 个 问题 : 确定 参数 很 烦 
琐 。 事实 上 ， 即 使 在 小 型 例子 中 ， 这 个 事情 也 很 复杂 。 在 下 一 章 中 ， 我 们 会 学 习 
如 何 从 数据 集中 自动 的 找 出 参数 。 我 们 会 介绍 EM (Expectation Maximization， 
期 望 最 大 化 ) 算法 ， 并 尝试 解决 复杂 问题 ， 学 习 图 本 身 的 结构 。 我 们 会 看 到 推断 
是 所 有 学 习 机 器 算法 中 最 重要 子 任务 ， 因 此 很 有 必要 设计 诸如 联结 树 这 种 高 效 的 
算法 。 

















































































































第 3 章 
学 习 参 数 


构建 概率 图 模型 大 致 需要 3 个 步骤 : 定义 随机 变量 ， 即 图 中 的 节点 ;定义 图 
的 结构 ， 以 及 定义 每 个 局 部 分 布 的 数值 参数 。 到 目前 为 止 ， 最 后 一 步 已 经 通过 人 
工 解决 ， 我 们 可 以 手动 的 给 每 个 局 部 概率 分 布 指定 数值 。 在 很 多 情 型 中 ， 我 们 可 
以 获取 到 大 量 数据 ， 并 使 用 叫 作 参数 学 习 (Parameter Learning) 的 方法 找 出 这 
些 参数 的 取 值 。 在 其 他 领域 中 ， 这 种 方法 也 叫 作 参数 拟 合 (Parameter Fitting ) 
或 者 模型 校准 (Model Calibration ) 。 


参数 学 习 是 机 器 学 习 中 的 重要 课题 。 在 这 一 章 中 我 们 会 看 到 如 何 使 用 数据 集 
为 给 定 的 图 模型 学 习 参 数 。 我 们 会 从 一 个 简单 但 是 常见 的 例子 开始 ， 其 中 的 数据 
完全 可 观测 。 然 后 进入 一 个 复杂 的 例子 ， 其 中 的 数据 部 分 可 观测 ， 需 要 更 多 先进 
的 技术 。 

参数 学 习 可 以 通过 多 个 手段 完成 ， 问 题 本 身 没有 终极 解决 方案 ， 因 为 问题 依 

赖 于 模型 使 用 者 的 最 终 目 的 。 尽 管 如 此 ， 人 们 还 是 经 常 使 用 最 大 似 然 率 的 思想 ， 
并 最 大 化 后 验 概率 。 既 然 已 经 熟悉 了 先 验 概率 和 后 验 概率 的 分 布 ， 那 么 读者 对 最 
大 化 后 验 概率 也 应 该 有 一 些 认 识 。 
在 这 一 章 中 ， 我 们 会 使 用 数据 集 。 当 模型 中 有 许多 变量 时 ， 我 们 在 任何 时 
候 都 可 以 观测 到 这 些 变量 的 取 值 。 所 有 变量 同一 时 刻 的 观察 结果 表示 一 个 数据 
集 。 例 如 ， 我 们 有 一 个 关于 某 位 学 生 在 大 学 中 表现 的 模型 。 在 这 个 模型 中 ， 我 们 
有 几 个 随机 变量 ， 例 如 年 龄 、 课 程 、 分 数 、 性 别 和 年 份 等 。 一 个 观察 结果 可 以 是 
{21，Statistics，B+，ftemale，2nd year}。 一 个 数据 集 就 是 这 些 观 测 
结果 的 大 型 集合 。 

在 整个 这 一 章 中 ， 我 们 会 做 一 个 假设 ， 即 数据 集 是 ii.d 的 ， 独 立 同 分 布 
(Independently and Identically Distributed〉 的 缩写 。 这 意味 着 每 个 变量 都 假设 
服从 同样 的 概率 分 布 ， 且 每 个 观测 又 独立 于 数据 集中 的 其 他 变量 。 对 于 刚才 学 




































































































































































































































































































































































3.1 引言 














生 的 例子 ， 这 也 很 自然 。 但 是 如 果 我 们 考虑 时 间 序 列 数据 集 ， 例 如 一 个 国家 的 
GDP， 那 么 数据 集 就 不 是 ii.d 的 ， 相 应 的 参数 学 习 算 法 也 不 同 。 事 实 上 ，ii.d 的 








数据 集 已 经 能 够 涵盖 大 量 的 应 用 了 。 























借助 所 有 可 能 的 方案 ， 我 们 可 以 进一步 讨论 本 章 中 的 主要 话题 了 。 设 DD 为 
数据 集 ，9 为 图 模型 的 参数 ， 似 然 率 函数 为 P(DI0)， 换 句 话说 ， 即 给 定 参 数 下 观 
测 到 (或 者 生成 ) 数据 集 的 概率 。 这 就 是 为 什么 概率 图 模型 有 时 也 叫 作 生成 模型 
(Generative Models ) 。 






































最 大 似 然 估 计 目 的 是 要 找 出 参数 0 的 值 ， 最 大 化 似 然 率 PLDIOD。 也 可 以 写作 
0 =argmaxsP(DI9)。 这 是 一 个 优化 问题 ， 即 找到 9 的 最 优 值 来 最 大 化 PLDIO)。 

如 果 想 更 准确 地 刻画 0， 我 们 可 以 采用 贝 叶 斯 方法 ， 也 给 出 参数 2 的 先 验 概 
率 分 布 P(0)。 在 这 例子 中 ， 找 出 参数 值 可 以 分 解 为 找 出 PLDIOD . P(O) 的 最 大 值 。 
这 个 过 程 叫 作 最 大 化 后 验 概率 (Maximum a Posteriori)。 


在 这 一 章 中 ， 我 们 首先 研究 一 下 使 用 最 大 化 似 然 率 进行 参数 估计 的 简单 例子 ， 
并 给 出 R 语言 实现 。 人 然后， 我 们 会 看 到 概率 图 模型 上 的 最 大 似 然 估计 。 最 后 ， 我 
们 会 研究 更 复杂 的 估计 问题 。 这 类 问题 可 以 包括 数据 缺失 ， 可 以 是 随机 缺失 ， 也 
可 以 是 参数 包括 隐 变 量 。 这 就 需要 我 们 介绍 机 器 学 习 中 最 重要 的 一 个 算法 一 一 
EM 算法 。 了 EM 意思 是 期 望 最 大 化 。 

本 章 结 构 如 下 : 
一 个 简单 例子 的 引入 。 
作为 推断 学 习 参 数 。 
最 大 似 然 率 。 
期 望 最 大 化 算法 。 

































































































































































3.1 引言 


在 这 一 章 中 ， 我 们 会 学 到 如 何 让 计算 机 学 习 模型 的 参数 。 我 们 的 例子 会 使 用 
多 个 自己 构建 的 数据 集 ， 也 可 能 是 从 其 他 网 站 下 载 的 数据 集 。 网 络 上 有 很 多 可 用 
的 数据 集 ， 我 们 会 使 用 来 自 UCI 机 器 学 习 库 的 数据 。 加 州 大 学 〈UCI) 尔 湾 分 校 
的 机 器 学 习 和 智能 系统 中 心 提 供 了 相关 链接 。 
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例如 ， 最 避 











EE 要 的 一 个 数据 集 是 高 尾 花 数据 集 ， 其 中 的 每 一 个 数据 点 都 表示 











和 和 宽度， 如 图 3-1 所 示 。 








一 种 意 尾 花 的 特点 。 不 同 的 属性 用 来 表示 花 划 的 长 度 和 宽度 ， 以 及 花 准 的 长 度 








意 尾 伦 照 片 来 自 https://en.wikipedia.ore/wiki/File:Iris_germanica_%28Purple_bearded Iris%629, Wakehurst 








Place, UK - Diliffjpg 
图 3-1 





这 个 数据 集 可 以 下 载 到 本 地 ， 并 存在 R 的 数据 框 data .frame 中 。 每 一 个 
我 们 会 使 用 ii.q 数据 〈 或 者 假设 数据 按照 顺序 分 布 ) 来 简化 微 积 





变量 都 是 一 列 ， 
分 和 计算 。 








RH 


上 我 们 下 载 数据 集 : 








x=read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/ 


iris/iris.data",col.names=c ("sepal length","sepal width","petal 
length";y "petal width"y "class")) 


head (x) 


sepal length 


4. 
4 
3 4 
4 5 
5 5 
6 4 
可 以 看 到 ， 





全 A 0 | 


sD 所 


9 
7 
6 
本 
4 
6 
数据 集 的 每 一 














参数 计算 会 非常 有 用 。 











sepal width petal length petal width class 
=: 


2 Iris-setosa 
Iris-setosa 
Iris-setosa 
Iris-setosa 
Iris-setosa 





让 人 
9 
Eh Ry AN 


Iris-setosa 





欠 观 察 都 是 数据 集 的 一 行 。 使 用 data.frame 来 简化 








3.1 引言 














我 们 可 以 使 用 数据 集 做 一 些 简 单 的 估计 。 例 如 我 们 只 考虑 第 一 个 变量 

















sepal_length， 并 假设 这 个 变量 服从 高 斯 分 布 ， 那 么 高 斯 分 布 中 两 个 参数 ( 平 
均值 和 方差 ) 的 最 大 似 然 估 计 可 以 简单 地 通过 计算 经 验 平均 值 和 经 验方 差 得 到 。 
在 R 中， 几 行 代码 如 下 : 























mean (x$sepal length) 
[1] 5:848322 


var (x$sepal length) 
[LL] O086568 


如 果 我 们 想 处 理 离 散 变 量 











FE 如 本 章 中 的 大 多 数 情形 ， 我 们 可 以 使 用 著名 的 

















程序 包 plyr 来 简化 计算 : 


library (plyr) 


现在 ， 我 们 计算 变量 class 上 的 分 布 。 在 data .frame 中 ， 可 以 执行 : 











y =daply (x,. (class),nrow) /nrow (x) 


2 
Iris-setosa Iris-versicolor Ixig=viEo 和 tea 
0.3288591 O3355703 O3353 TO 


有 意思 的 是 ， 可 以 看 到 每 种 类 型 的 分 布 大 概 是 33%。 我 们 只 是 把 data. 














frame 中 class 列 的 每 个 值 的 出 现 计 了 数 ， 并 除 以 值 的 总 数 。 这 样 的 操作 给 出 
了 分 布 值 ， 也 可 以 用 来 作为 每 一 类 的 先 验 概率 。 在 这 个 例子 中 ， 我 们 的 分 布 基本 
上 是 均匀 分 布 。 









































进一步 ， 我 们 可 以 看 一 下 给 定 一 个 类 别 下 其 他 变量 的 分 布 。 假 设 sepal_ 




















length 服从 平均 值 为 w， 方 差 为 ex- 的 高 斯 分 布 。 一 个 简单 的 联合 分 布 由 以 下 分 
解 给 出 : 





P(SepalLength,Class)=P(SepalLength|Class) : P(Class) 
计算 条 件 概率 P(SepalLength|lClass) 等 价 于 计算 class 变量 中 每 个 值 对 应 的 





平均 值 和 方差 。 执 行 如 下 : 


daply (x,. (class), function(n) mean(n$sepal length)) 


Iris-setosa Iris=-versicolor Iris=-virginica 
5.004082 S936000 6.588000 


类 似 的 ， 变 量 class 下 每 一 个 分 布 的 方差 如 下 : 
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Ss 


daply (x,. (class), function(n) var(n$sepal length)) 


Iris-setosa Iris-versicolor Iris-virginica 
0.1266497 0.2664327 0.4043429 


使 用 R 函数 可 以 非常 容易 地 计算 条 件 概率 分 布 。 如 果 想 在 离散 分 布 上 执行 同 
样 的 计算 ， 我 们 可 以 使 用 下 列 代 码 。 首 先 ， 对 变量 sepal_wiqdtnh 离散 化 转换 成 
离散 值 。 它 表示 宽度 ， 因 此 《简化 起 见 ) 我 们 可 以 设 定 3 个 不 同 的 值 : {smal1， 
medium，1arge}。 我 们 可 以 使 用 下 列 代码 自动 完成 : 
























































q <-quantile (x$sepal width, seq(0, 1, 0.33) 
我 们 找 出 了 变量 sepal wigth 的 33% 和 66% 分 位 数 。33% 以 下 的 值 对 应 
small，33% 和 66% 之 间 的 值 对 应 medium， 大 于 66% 的 值 对 应 large。 









































q 
0% 33% 66% 99% 
2000 Za00 S200 -412 


然后 我 们 在 data. frame 中 创建 一 个 新 的 变量 ，sepal width 的 离散 版 
本 。 执 行 下 列 代码 : 








x$dsw[ x$sepal width <q['33%']] = "small" 
x$dsw[ x$sepal width >=q['33%$'] &x$sepal width <q['66%'] ] = "medium" 
x$dsw[ x$sepal width >=q['66%$'] ] = "large" 





对 于 分 位 数 定义 的 每 一 个 区 间 ， 我 们 都 关联 上 small、medium 或 large 
值 ， 放 在 x 中 新 的 列 dsw ( 即 discrete sepal width) 中 。 


最 终 ， 我 们 可 以 通过 下 列 代 码 学 到 条 件 概 率 分 布 P(dswlclass) : 














pl <-daply (x,. (dsw,class), function(n) nrow(n)) 


下 二 

class 
dsw Iris-setosa Iris-versicolor Iris-virginica 
large 3 和 5 3 
medium 12 18 二 8 
small J 27 19 








这 样 在 指定 class 值 后 ， 可 以 得 到 dsw 中 每 一 个 值 每 次 出 现 的 计数 。 如 果 
我 们 想 把 它们 变 成 概率 ， 只 需要 除 以 每 个 列 的 和 。 事 实 上 ， 每 个 列 都 代表 一 个 概 
率 分 布 。 可 以 执行 下 列 代码 : 























class 每 


pl <-pl/colSums (P1) 























最 终结 果 是 : 
class 
dsw Iris-setosa 
large 0:7346939 0 1020 
medium 0.2400000 0.3600 
small 0.0200000 0.5400 








如 果 我 们 分 析 完成 的 过 程 ， 
个 值 下 的 sepal_wiadth 值 

















说 我 们 分 别 发 现 了 分 布 的 每 个 因 





P(Class)。 
在 后 面 的 内 容 中 ， 我 们 会 学 习 更 加 形式 化 的 方法 ， 解 决 如 何 泛 化 这 一 思想 3 








学 习 带 有 离散 变量 的 概率 
很 有 效 的 。 
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408 
000 
000 


使 用 之 前 class 上 的 分 布 ， 我 们 可 以 完全 参数 化 模型 ， 
epalWidth,Class)=P(SepalWidth 




















0526530651 
0.3600000 
0.3800000 





Class) * P(Class)。 
并 试 着 抽取 一 条 经 验 规则 ， 可 以 说 参数 
8 现 次 数 计 数 来 找 出 




















图 模型 ， 以 及 从 理论 的 角度 到 


3.2 通过 推断 学 习 


在 





St 5 





输 昌 


观察 是 ii.q 的 。 
,D2, .… V0)。 每 次 投 措 依赖 于 概率 9， 因 


P(v 


电 计 
改进 现 有 的 模 
好 的 模型 。 
让 我 们 思考 一 个 简单 的 问题 : 
是 公平 的 (没有 做 过 手脚 
的 概率 。 多 次 投掷 便 
是 vF1， 否 则 为 0。 我 们 也 可 以 假设 每 一 次 投掷 之 间 没 
我 们 把 每 一 个 投 搓 当 作 随 机 变量 。 投 拉 


在 本 章 的 引言 部 分 ， 我 们 看 到 学 习作 
多 数 情况 下 ， 这 已 经 足够 了 ， 但 是 这 还 只 
上 ， 学 习 的 过 程 是 把 数据 与 领域 知识 整合 在 一 起 的 过 程 ， 以 便 创 建新 的 模型 或 
E 断 问题 ， 人 们 需要 更 新 已 有 的 模 

















型 。 


因 























最 终 


~? 





子 的 参数 : 





E 务 可 以 通过 频率 主义 的 计数 法 来 完成 。 


个 














A\ 





是 机 器 学 习 思 想 





此 ， 学 习 可 以 看 作 








)。 设 9 为 硬 














建 模 投 搓 硬 





是 P(SepalWidthiClass)， 一 个 


LE 解 为 什么 这 


的 狭窄 认识 





3.2 ”通过 推断 学 习 

















Iris-versicolor Iris-virginica 


得 到 联合 分 布 : P(S 


通过 对 
参数 。 我 们 还 可 以 





谎 


-AI 


通常 是 





田 相 


Nu 























更 普遍 


了 











型 


Eb. 


得 到 








的 结果 。 我 们 想 检验 硬币 是 不 


正面 朝 上 的 概率 。 公 平 的 投掷 会 满足 0.5 

















此 模型 是 : 


6 后， 我 们 想 估 计 这 个 概率 。 假 设 第 i 次 投 撕 正 面 朝 上 ， 记 





依赖 。 这 意味 着 ， 




















序列 的 联合 分 布 是 








Po)=P(C9j[[T Po lo) 








在 图 模型 中 ， 











现在 我 们 介 
左边 的 图 是 我 们 常 


























可 以 表示 成 如 下 模型 ， 如 图 3-2 所 示 。 














3-2 











绍 一 个 新 的 图 模 3 























正 模型 更 简单 。 





Pe | 





























的 方法 ， 在 现在 的 问题 9 





带 来 麻烦 。 右 边 的 图 表示 了 同样 的 图 

在 之 前 一 节 中 ， 我 们 看 到 学 习 过 程 把 数据 整合 到 了 模型 中 。 
们 看 到 ， 使 用 贝 叶 斯 公式 ， 我 们 可 以 基于 给 定 的 新 信息 更 新 概率 分 布 。 使 
有 ， 我 们 想 估 计 一 下 概率 : 



































型 表示 法 : 平板 表示 法 (The Plate Notation ) 。 
的 表示 法 ， 其 中 只 表示 了 vw 的 第 一 个 和 最 后 一 个 节点 ， 以 保 
时 这 有 点 令 人 费解 ， 甚 至 在 很 多 例子 中 节点 一 多 就 会 有 此 义 和 




















模型 ， 其 中 方 框 的 意思 是 节点 重复 N 次 。 


在 第 1 章 中 ， 我 






































相同 





_ Pv,..,v,,0) POY,...,v,|10)P(0) 





PlViyasl,s,) 





P(O| vi,...,v, ) 
这 也 是 贝 叶 斯 公式 的 简单 应 用 。 
下 一 步 ， 我 1 




















这 个 公式 说 明 ， 我 们 相信 硬币 有 75% 的 概率 是 公平 





正面 ， 




















:= 





是 ， 因 为 它 可 以 取 0 到 1 之 间 的 任意 值 。 
题 ， 采 用 离散 化 策略 。 设 0 可 以 取 3 个 不 同 的 值 
; 即 0 € {0.2,0.5,0.8}， 我 们 给 











门 要 确定 公式 的 多 个 因子 ， 首 先是 先 验 


PO,.. 


到 

















既 率 P(0)。 直 觉 上 讲 ,， 0 


























但 是 ， 我 们 会 简化 这 个 问 



































上 先 验 概率 : 











正面 不 公平 、 反 面 不 公平 和 








P(O=0.2)-0.2 P(0=0.5)=0.75 _P(O=0.8)=0.05 








在 开始 我 们 会 省 略 分 母 ， 并 使 用 符号 =。 

















的 ， 有 20% 的 概率 趋向 
5% 的 概率 趋向 反面 。 接 下 来 是 估计 9 的 后 验 概率 分 布 。 需 要 注意 ， 从 现 

















它 的 含义 是 “正比 于 ”， 而 不 是 完全 等 




















3.2 ”通过 推断 学 习 








因此 后 验 概率 可 以 表示 为 : 





PCO| v,,...,v,) «PO LPO 0)=P@ 开 [of Ge oy t=] 





这 个 公式 并 没有 看 上 去 复杂 。 首 先 ， 我 们 把 PQvi,v,.… wg) 蔡 换 为 它 的 分 解 
形式 ， 如 图 中 所 示 。 然 后 ， 我 们 把 P(w0) 蔡 换 为 自己 的 分 解 ， 其 中 v=1 时 取 0， 
”0 时 取 (1-g)。 函 数 在 括号 内 条 件 为 真 时 等 于 1， 否 则 为 0。 我 们 使 用 x=1。 


我 们 希望 读者 可 以 完成 计算 。 最 终 我 们 有 : 


























P(O| Vy... )c P(0)02= ti" (上 By bd] 




















表达 式 中 的 求 和 是 对 试验 中 正面 (或 反面 ) 朝 上 的 简单 计数 ， 以 便 确定 硬 
币 是 否 公平 。 如 果 我 们 把 这 两 个 计数 记 作 We 和 Wor， 就 可 以 简化 后 验 概率 的 表 
达 ， 如 下 : 




















P(O| Vi,...v,) ec P(O)O Ne (1— O) Ne 











因此 ， 我 们 最 终 可 以 给 R 环境 输入 这 个 公式 ， 查 看 贝 叶 斯 学 习 过 程 的 结果 : 











posterior <-function (prob, nh, nt, Theta =c(0.2, 0.5, 0.8) 
x =numeric(3) 
OE 


x[i] =prob[i] *(Theta[li]“^nh) *((1 -Thetal[lil])“^nt) 


norm =sum (x) 
return (x/norm) 


} 

在 这 个 函数 中 ，prob 是 每 个 9 取 值 的 概率 向 量 ，nh 和 nt 遵循 之 前 的 定义 ， 
Theta 是 9 可 能 值 的 向 量 。 我 们 默认 使 用 之 前 提 到 的 值 。 这 些 代码 还 可 以 优化 ， 
但 是 在 这 里 我 们 会 尽量 简单 化 。 最 重要 的 一 行 是 实现 后 验 概 率 公 式 的 那 一 行 。 归 
一 化 因子 是 norm， 最 后 返回 0 后 验 概率 分 布 的 值 。 


证 我 尝试 使 用 这 个 公式 ， 看 看 不 同 的 先 验 概 率 会 带 来 什么 样 的 结 


posterior(c(0.2,0.75,0.05),2,8) 
[1] 6.469319e-01 3.530287e-01 3.948559e-05 


























































































































第 3 章 学 习 参数 


Ss 


Bosterior(e(02;0:75,005) 872) 
0:0003067321 0.6855996202 0.3140936477 
posterior (eG(02;:0.75,005) ,5,5) 
0.027643708 0.965445364 0.006910927 


posterior'(e(0.2;0.75,0.05).10,10) 
0:0030626872 09961716410 0.0007656718 


posterior'(e(0.2.0.75,005).,50,50) 
5.4320968=11 1.000000s+00 1.358024é=11 




















我 们 做 下 面 几 个 试验 : 2 次 正面 朝 上 和 8 次 反面 朝 上 ，8 次 正面 朝 上 和 2 次 
反面 朝 上 ， 都 是 5 次 朝 上 ， 都 是 10 次 朝 上 和 ， 都 是 50 次 朝 上 。 注 意 ， 最 后 一 个 
试验 由 于 次 数 较 多 带 来 误差 ， 其 概率 分 布 的 和 不 等 于 1。 读 者 应 该 时 刻 记 得 测试 
和 调试 自己 的 程序 : 概率 分 布 的 和 应 该 等 于 1。 在 这 个 例子 中 ， 这 意味 着 我 们 达 























到 了 机 器 精确 度 的 上 限 ， 看 到 了 误差 。 
分 析 结 果 ， 确 定 如 何 解 决 这 些 精 确 度 问题 : 





















































国 2 次 正面 朝 上 和 8 次 反面 朝 上 : 硬币 以 65% 的 概率 趋向 于 反面 朝 上 。 但 








是 硬币 的 公平 度 还 是 35%， 依 然 不 小 。 

































































加 8 次 正面 朝 上 和 2 次 反面 朝 上 : 我 们 得 到 了 相反 的 结果 。 但 是 由 于 先 验 
概率 (趋向 于 正面 朝 上 ) 很 低 ，P(O=0.8)=0.05， 结 果 依 然 以 68% 的 概率 











说 明 硬 币 是 公平 的 。 





国 如果 我 们 得 到 了 相同 的 次 数 ， 那 么 结果 充分 说 明 硬 


率 也 随 着 试验 次 数 的 增加 而 增加 。 





是 














公平 的 。 这 个 概 


最 后 ， 我 们 给 出 一 个 处 理 概率 计算 时 的 必要 技巧 。 当 你 需要 把 许多 小 数值 


相 乘 时 ， 使 用 对 数 的 加 和 ， 而 不 是 原始 值 和 乘法 。 因 
log(ab)=log(a)+bog(b)。 新 算法 进而 变 成 下 面 计算 x[i] 的 样子 : 
































此 新 的 算法 会 用 到 等 式 : 


x[i] =exp (log (prob[i]) +nh *log(Theta[i]l]) +nt *log(1 -Thetal[il])) 


最 后 的 检验 是 当先 验 分 布 是 均匀 分 布 ， 即 硬币 的 每 个 面 都 赋予 相等 的 概率 的 





























时 候 。 使 用 下 面 的 代码: 


posterior (GG(1/3;1/3,1/3}),2,8;6(0.2,0.5,0.8) 
[1] 0.8727806225 0.1270062963 0.0002130812 
posterior(e(1/3.1/3,.1/3) 78;27 C6(052;0.5,0.8) 
[11 O00002130812 0:1270062963. 0:8727806225 

















3.3 ”最 大 似 然 法 


BOSterior (G(T/3. 1/3.1/3) ;5.5 C(O02. 和 局 0}) 
[i] O08839212 0.82321576 0.08839212 


我 们 可 以 看 到 ， 每 次 试验 的 结论 都 靠近 高 的 概率 。 

















3.3 最 大 似 然 法 


这 一 节 会 介绍 一 个 简单 的 算法 ， 来 学 习 图 模型 中 的 所 有 参数 。 在 第 1 节 中 ， 
我 们 有 了 学 习 模 型 的 初步 经 验 。 我 们 知道 ， 参 数 可 以 通过 每 个 变量 的 局 部 学 习 而 
得 到 。 这 就 意味 着 ， 对 于 每 一 个 拥有 父 节 点 pa(x) 的 变量 x， 对 于 父 节 点 pa(x) 的 
每 一 个 组 合 ， 我 们 可 以 计算 x 每 一 个 值 出 现 的 频率 。 如 果 数 据 集 足够 完备 ， 这 会 
生成 图 模型 的 最 大 似 然 估计 。 


































































































对 于 图 模型 中 的 每 一 个 变量 x， 以 及 其 父 节 点 pa(x) 的 每 一 个 组 合 c : 


国 抽取 < 中 对 应 值 的 所 有 数据 点 。 
加 计算 x 值 的 的 直方 图 及。 
国 指定 P(xlpa(x)=c)=H.。 





























这 就 可 以 了 ? 没 错 ， 你 只 需 完成 这 些 步 又 。 相 对 困难 的 部 分 的 是 数据 点 的 抽 
取 ， 而 这 个 任务 可 以 使 用 R 中 的 ddply 或 者 aggregate 函数 解决 。 




















为 什么 会 如 此 简单 ?在 看 R 算法 之 前 ， 让 我 们 看 看 这 个 算法 为 什么 会 有 效 。 














3.3.1 经 验 分布 和 模型 分 布 是 如 何 关 联 的 ? 

图 模型 表示 一 个 变量 集合 工 的 联合 概率 分 布 。 但 是 并 非 每 一 个 联合 概率 分 布 
都 可 以 表示 成 图 模型 。 这 里 我 们 只 对 先前 定义 的 有 向 概率 图 模型 感 兴趣 。 这 个 定 
义 也 可 以 看 作对 期 望 表达 的 概率 分 布 类 型 的 一 种 约束 ， 在 这 个 例子 中 ， 约 束 可 以 
表示 为 : 
































PX) =[ PG Vv pa(x; ))X = x ».. ,XN 
到 目前 为 止 ， 这 是 我 们 熟知 的 有 向 图 模型 的 定义 。 
定义 : 经 验 分 布 。 设 下 fx, ,xzw 是 数据 点 集合 ， 表 示 变 量 马 的 状态 ， 那 























么 经 验 分 布 会 均匀 分 布 在 数据 点 上 ， 而 数据 点 外 的 值 是 0。 摘 自 : Bayesian 
Reasoning and Machine Learning，D. Barber 2012， 剑 桥 大 学 出 版 社 。 








假设 郊 中 的 点 都 是 独立 同 分 布 ， 经 验 黑 积分 布 函数 是 PCO= 一 7[X= xz 
或 者 说 ， 这 种 分 布 对 于 六 的 每 一 个 可 能 的 状态 ， 我 们 都 会 从 数据 集中 关联 上 一 个 


计算 好 的 频率 ， 如 果 数 据 集 中 没有 该 点 ， 就 给 出 0。 
让 我 们 想 一 下 经 验 分 布 g(x) 和 模型 分 布 P(x) 的 关系 。 


Kullback-Leibler 散 度 (也 叫 作 相对 焙 ) 是 对 两 种 概率 分 布 9 和 pp 差异 的 非 对 
称 度量 ， 记 作 KL(qlp)。 它 给 出 了 从 9g 中 样本 到 p 中 样本 转换 所 需 的 比特 数 。 直 
觉 上 讲 ， 如 果 两 个 分 布 是 一 样 的 ， 那 么 Kullback-Leibler 散 度 是 0。 


经 验 分 布 和 模型 分 布 之 间 的 KL 散 度 是 : 




















KL(q|p)= 2 gl1og q(x)- > goo log p(x) 


模型 p(x) 的 对 数 似 然 率 是 > ， log p(x;)， 我 们 可 以 在 之 前 的 公式 中 看 到 ， 
边 的 项 就 是 模型 pQ) 在 经 验 分 布 g(x) 下 的 对 数 似 然 率 。 因 此 我 们 可 以 写作 : 


Dt 


最 











KL(q p)=D gog go) ,log pl) + cst 


a 








同时 ， 因 为 项 > ,4COD log4g(2) 并 不 依赖 PCD， 模型 分 布 可 以 考虑 改写 为 : 
KL(q| p)= -i log px;)+ cst 
所 以 ， 从 之 前 的 公式 我 们 看 到 最 大 化 似 然 率 等 价 于 最 小 化 对 数 似 然 率 。 假 设 
第 二 项 是 个 常数 ， 最 小 化 对 数 似 然 率 也 会 最 小 化 经 验 分 布 9 和 模型 分 布 p 之 间 的 


KL 散 度 。 这 只 是 意味 着 ， 找 出 p(x) 最 大 化 似 然 参数 等 价 于 最 小 化 经 验 分 布 和 模 
型 分 布 之 间 的 KL 散 度 。 


如 果 p(x) 上 没有 约束 ， 那 么 答案 就 是 p(x)= q(x)。 


但 是 回忆 一 下 ， 我 们 确实 有 一 些 约束 : p(x) 必须 是 个 图 模型 。 因 此 ， 把 真正 
的 p(x) 放 到 公式 中 看 看 有 什么 结果 。 














































































































3.3 ”最 大 似 然 法 


KUql p)=-2, (>, log p(x palx; 六 Ce )+ cst 


不 要 被 两 个 求 和 符号 吓 坏 ， 只 需 记 得 log[ ,PGx| pa(x%))= 了》 logpGl pa 








即 我 们 只 用 图 模型 概率 分 布 的 对 数 运算 。 由 于 外 
x; 上 的 每 一 项 ， 因 此 这 个 大 项 可 以 简化 为 以 下 形式 : 




















只 依赖 于 内 圈 求 和 在 变量 

















KUq p) =- log p(xil palxi)q Ce; pa V+ est 


现在 内 部 求 和 计算 了 在 变量 x 的 子 集 palx) 限 和 
让 我 们 再 把 常数 加 到 公式 里 : 


























前 下 ， 分 布 4 的 对 数 似 然 率 。 


KZd 太 =》 ba log q(x palxi)q 06 spalxi))— > logp Cl pa(xi)9 ispa Cs 中 








公式 看 着 又 很 复杂 ， 但 是 如 果 仔 细 观 察 









































号 内 的 部 分 ， 这 次 你 会 看 到 qCepa(x)) 


和 p(xpa(x)) 之 间 的 KL 散 度 的 公式 。 这 个 漂亮 的 结果 意味 着 我 们 可 以 进一步 简 


化 公式 : 


KL(q| p)= pe > KL pax) pi, pa x))g pal )) 


我 们 在 最 后 这 个 公式 上 的 操作 就 是 对 KL 散 度 带 权 求 和 
和 KL 散 度 都 是 正 值 ， 其 他 所 有 项 也 是 了 


























上。 概率 分 布 gaGCo)) 
E 值 ， 因 此 最 小 化 求 和 就 是 对 每 一 项 最 小 


化 。 同 时 ， 如 前 所 述 ， 最 小 化 求 和 也 意味 着 p(x) 最 大 似 然 估 计 。 但 是 如 果 我 们 仔 

















细 观 察 求 和 的 内 容 ， 你 会 看 到 更 多 的 KL 散 度 ， 每 一 个 都 是 与 











图 中 节点 关联 的 一 





个 小 分 布 ! 我 们 需要 最 小 化 这 些 散 度 。 因 此 ， 这 意味 着 ， 如 果 我 们 想 最 小 化 整个 


PP 和 g 之 间 的 KL 散 度 (3 

















模型 








Pp 的 最 大 似 然 估计 ， 我 们 需要 逐个 地 对 


每 个 节点 分 别 做 同样 的 处 理 。 最 小 化 这 些 KL 散 度 ， 等 价 于 计数 和 计算 频 度 。 因 








此 ， 有 向 图 模型 的 最 大 似 然 估计 旱 可 以 通过 选取 父 节 点 在 pa) 中 的 数据 点 ，3 
对 图 中 每 一 个 节点 的 数据 点 计数 得 到 这 


























3.3.2 最 大 似 然 法 和 R 语言 实现 
现在 ， 我 们 可 以 写 一 个 简单 的 R 算 法 来 学 习 图 中 的 参数 。 在 这 一 节 中 ， 我 们 
会 使 用 来 自 UCI 的 Nursery 数据 集 (https://archive.ics.uci.edu/ml/datasets/Nursery)。 
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这 个 算法 不 会 使 用 任何 图 模型 程序 包 ， 只 会 使 用 图 程序 包 和 常用 的 R 包 。 


这 个 数据 集 有 9 个 变量 ， 与 幼儿 园 入 园 申请 有 关 。 这 个 数据 集 保 存在 1980 
年 代 的 斯 洛 文 尼 亚 的 卢布 尔 雅 那 ， 用 于 在 申请 量 太 高 的 情况 下 对 其 进行 排序 ， 以 
便 构 建 一 个 专家 系统 来 客观 地 解释 为 什么 某 个 申请 被 接收 或 拒绝 。 所 有 变量 都 是 
类 别 型 的 ， 因 此 我 们 只 需 关 注 离散 变量 。 

本 闻 的 目的 是 为 了 通过 具体 应 用 说 明 本 章 中 所 学 的 技能 ， 因 此 我 们 不 会 试图 构 到 
一 个 完美 的 专家 系统 。 基 于 这 些 理解 ， 我 们 使 用 简单 的 图 形 来 解释 这 个 例子 ， 如 图 33 
所 示 。 
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图 3-3 














R 代码 如 下 ， 包 括 学 习 函 数 ， 其 使 用 两 个 新 程序 包 Tgraph 和 Rgraphviz。 
你 会 看 到 ， 为 了 易于 理解 ， 线 都 用 数字 标记 (并 不 是 代码 的 内 容 ); 














library (graph) 
library (Rgraphviz) 
library (plyr) 


1 

2 

3 

4 

5 data0 <-data.frame( 
6 O(a hp bY}, 
8 人 
8 2 se a Me nd, Ve Ma "Te a)) 
3 

0 edges0 <-list (x=list (edges=2),y=list (edges=3),z=1list()) 

1 g0 <-graphNEL (nodes=names (data0),edgeL=edges0,edgemod="directed") 
2 plot (g0) 
3 


4 datal <-read.csv("http://archive.ics.uci.edu/ml/machine-learning- 
databases/nursery/nursery.data",col.names=c ("parents","has nurs","form", 


n 


"hildren" "housing "tinance "social"r "health",. "elLass")) 





5 edgesl <=1list( parents=list(), las nurs=list(), form=list(), 
children=list(), 
6 housing=list(), finance=list(),social=list(), 


health=list (),， 





3.3 ”最 大 似 然 法 


法 class=list (edges=1:8)) 
18 gl <-graphNEL (nodes=names (datal), edgelL=edgesl1,edgemod="directed") 
19 plot(g1) 


从 第 1 行 到 第 3 行 ， 我 们 加 载 了 必要 的 程序 包 。 在 第 5 行 我 们 创建 了 一 个 简单 的 
数据 集 来 测试 学 习 函 数 。 这 个 数据 集 有 3 个 变量 ， 会 对 每 一 种 组 合生 成 50% 的 概率 。 

在 第 10 行 和 第 11 行 ， 我 们 创建 了 边 和 相应 的 图 。 在 第 12 行 ， 我 们 绘制 了 
图 ， 并 得 到 图 3-4 所 示 的 图 模型 。 































































































从 第 14 行 到 第 19 行 ， 我 们 绘制 了 第 二 个 图 模型 ， 这 一 次 使 用 Nursery 数 
据 集 ， 绘 图 函数 的 输出 如 图 3-5 所 示 。 




















父母 保姆 数 表格 孩子 住房 财务 社会 关系 状况 
图 3-5 


下 面 ， 我 们 有 一 个 简单 的 函数 来 为 每 一 个 带 有 【或 不 带 有 ) 父 节点 的 变量 计 
算 条 件 概率 表 : 























make cpt<-function (df,pa) 
{ 
prob <-nrow (df) 
parents <-data.frame (df[1,pal]) 


1 

2 

3 

4 

5 names (parents) <-pa 

6 

7 data.frame (parents,prob) 
8 


} 





这 个 函数 事实 上 会 被 后 边 的 plyzr 程序 包 ) ddply 函数 调用 ， 计 算 变 量 与 
其 父 节 点 的 每 一 个 组 合 的 频率 。 这 个 计算 通过 第 3 行 的 nrow 函数 调用 实现 。 

频率 只 是 数据 集中 相同 的 组 合 出 现 的 次 数 计数 。 因 为 这 个 函数 在 调用 时 组 合 
是 唯一 的 (得 益 于 ddply)， 所 以 我 们 可 以 在 第 4 行 中 ， 只 从 第 1 行 开始 抽取 所 
9 父 三 点 的 值 。 


， 主 要 的 学 习 函 数 如 下 。 代 码 并 没有 优化 ， 但 是 非常 简单 、 明 了。 我 们 
可 以 理解 每 一 行 的 含义 : 
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1 learn <-function(g,data) 
2 1 
3 rg <-reverseEdgeDirections (g) 
4 result <-list() 
6 for (var in rganodes) 
7 { 
8 pa <-unlist(adj (rg,var)) 
9 if (length (pa) >0) 
0 L 
下 X <-ddply (data, cl(var,pa), make cpt, pa) 
多 Y <-ddply (data, pa, make cpt, pa) 
3 forl(i 14n 1:nrow(Y)) 
4 { 
5 C <-sapply (1l:nrow (xX), function(j) all(x[j,pa] ==Y[i,pal]) 
6 c <-which (c) 
时 X$prob[c] <-XSprob [c]/YSprob [i] 
8 } 
9 } 
20 else 
21 { 
22 X <-ddply (data,var, function(df) c(prob=nrow (df))) 
23 X$prob <-X$prob/sum (X$prob) 
24 } 
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25 

26 result[[length (result)+1]] <-X 
27 } 

28 

29 return (result) 

30 1} 


这 个 函数 有 两 个 参数 : 图 g 和 数据 集 data。 在 第 3 行 中 ， 它 反 转 了 所 有 边 
的 方向 ， 以 便 用 程序 包 graph 中 的 函数 aqdj () 找 出 每 一 个 变量 的 父 节 点 。 理 论 
上 讲 ， 反 转 图 形 并 没有 什么 稀奇 ， 这 么 做 只 是 为 了 方便 找 出 父 节点 。 

在 第 6 行 中 ， 函 数 开始 分 别 学 习 每 一 个 变量 ， 正 如 我 们 在 之 前 的 章节 看 到 
的 ， 我 们 处 理 了 2 个 问题 ,一 个 是 变量 没有 父 节 点 (因此 我 们 计算 了 变量 的 边缘 
分 布 ) 的 问题 ， 另 一 个 是 变量 有 父 节点 《因此 我 们 计算 了 条 件 概 率 表 ) 的 问题 。 


在 第 11 行 中 ， 对 于 每 一 个 变量 和 父 节 点 的 值 ， 我 们 计算 P (var,pa (var)) 
频 度 (更 准确 地 说 应 该 是 计数 )。 在 第 12 行 中 ， 我 们 对 P (pa (var) ) 做 同样 的 
操作 。 

最 后 ， 从 第 13 行 到 第 18 行 ， 我 们 使 用 贝 叶 斯 公式 得 到 条 件 概 率 表 ， 并 把 计 
算 转 化 为 概率 (对 于 本 例 ， 也 是 频 度 )。 第 22 行 和 第 23 行 执行 同样 的 操作 生成 
边缘 概率 表 。 

每 个 变量 的 结果 都 保存 在 名 为 result 的 列 中 ! 


我 们 用 这 个 函数 ， 以 及 两 个 数据 集 ， 看 到 了 同样 的 结果 ， 并 进行 分 析 。 
























































































































































3.3.3 应 用 
首先 ， 加 载 并 运行 之 前 的 RR 代码 ， 然 后 执行 下 列 代码 : 
learn(g0, data0) 


结果 如 下 : 
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这 个 结果 表明 PQx=a)=0.5，P(x=b)=0.5。 观 察 数据 集 ， 我 们 看 到 变量 x 有 相 
同 数量 的 a 和 4b。 结 果 没 问题 ! 
另外 的 表 是 PQylx) 和 P(zly)。 注 意 条 件 概率 不 是 直接 概率 。 这 些 表 需要 根据 
父 节 点 的 值 进行 理解 。 例 如 ，PQx=tlx=a)=0.5 和 P(y=ulx=a)=0.5。 很 明显 ， 二 者 的 
和 为 1。 
现在 ， 让 我 们 在 Nursery 数据 集 上 使 用 learn 函数 ， 看 看 结果 如 何 : 


learn(gl, datal) 


为 了 简化 输出 ， 我 们 只 给 出 部 分 变量 ， 首 列 为 class : 
















































































class prob 
1 not recom 3:33359Le=01 
2 priority 3.291921e-01 
3 recommend 7.7166456=05 
4 spec prior 3.120611e-01 
5 _ Very _ recom 2..531099e=02 
这 是 边缘 概率 表 ， 和 之 前 从 图 中 得 到 的 一 样 。 总 和 是 1， 而 且 我 们 看 到 有 些 



































概率 值 比 其 他 概率 值 要 高 。 这 个 表 会 用 在 专家 系统 中 ， 进 而 推出 结论 。 当 然 ， 我 
们 的 模型 非常 简单 ， 而 更 加 实际 的 模型 会 拥有 不 同 的 图 模型 和 值 。 我 们 鼓励 读者 
修改 图 g1 来 测试 不 同 的 选择 。 


如 果 我 们 看 一 下 finance 变量 ， 我 们 有 下 表 : 










































































finance class prob 
1 convenient not recom 0.5000000 
2 convenient Priority O05260L197 
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3 convenient recommend 1.0000000 
4 convenient spec prior 0.4589515 
5 convenient very recom 0.6646341 
6 inconv not recom 0.5000000 
吕 inconv briority 0:4739803 
8 inconv spec prior 0.5410485 
9 inconv very recom 0.3353659 








这 个 表 比 之 前 看 到 的 都 要 大 ， 但 是 也 正常 有 效 。 然 而 ， 有 一 个 小 问题 ， 最 大 
似 然 估 计 过 程 并 不 是 贝 叶 斯 过 程 ， 而 只 是 一 个 频率 主义 的 过 程 。 它 在 多 数 情形 下 
都 会 有 效 ， 但 是 有 时 我 们 可 能 会 有 问题 。 这 里 ， 第 3 行 中 ， 我 们 看 到 P(finance=c 


onvenientlclass=recommend)=1 。 
















































































虽然 概率 等 于 1 3 下 个 问题 ， 但 是 很 烦人 。 这 是 因为 我 们 在 数据 集中 只 
个 特定 组 合 的 例子 ， 这 会 给 出 极端 的 结果 。 这 个 结果 并 不 是 期 望 的 结果 ， 因 
We 能 的 场景 ， 而 不 要 落 入 某 一 个 概率 为 1 的 独特 场景 中 。 


en 到 ， 在 许多 情况 下 给 模型 的 所 有 参数 添加 先 验 概率 分 布 会 很 
这 样 可 以 避免 它们 带 有 概率 为 0 或 1 的 情 型 ， 而 且 可 以 发 掘 出 尽 可 能 
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的 场景 景 。 


3.4 ”学习 隐 含 变量 一 一 期 望 最 法 

本 章 的 最 后 一 部 分 介绍 一 个 最 重要 的 算法 。 这 个 算法 会 在 本 书 中 多 次 使 用 。 
这 是 一 个 学 习 隐 含 变 量 〈 即 有 些 变量 观察 不 到 ) 概率 模型 的 非常 通用 的 算法 。 包 
含 隐 含 变 量 的 模型 有 时 也 叫 作 隐 变 量 模型 (Latent Variable Models )。 期 望 最 大 
化 算法 是 解决 这 一 类 问题 的 方案 ， 并 且 在 概率 图 模型 上 也 有 很 好 的 表现 。 


多 数 情况 下 ， 当 我 们 想 学 习 模型 的 参数 时 ， 我 们 会 写 一 个 目标 函数 ， 例 如 似 
然 函 数 ， 我 们 的 目的 是 找 出 可 以 最 大 化 函数 的 参数 。 通 常 ， 我 们 可 以 只 用 一 个 黑 
盒 数值 优化 函数 ， 计 算 给 定 函数 的 相关 参数 。 然 而 ， 在 多 事情 况 下 ， 这 会 比较 难 
以 驾驭， 而 且 容 易 导 致 数值 错误 (因为 CPU 的 内 部 估计 误差 )。 所 有 这 个 通常 不 
是 一 个 很 好 的 方案 。 


我 们 力图 使 用 优化 问题 的 特异 性 (除了 图 模型 对 联合 概率 分 布 所 做 的 假设 ) 
来 改善 计算 流程 ， 使 其 更 快 、 更 可 靠 。 
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对 于 找到 图 模型 的 最 优 参 数 问题 ， 期 望 最 大 化 算法 是 一 种 非常 优雅 的 方案 。 
它 也 可 以 用 到 许多 类 型 的 模型 中 。 











3.4.1 隐 变 量 

隐 变 量 可 以 用 在 所 有 模型 中 ， 以 便 引 入 一 个 简化 层 ， 或 者 分 离 概 念 ， 或 者 给 模 
型 定义 一 些 层级 。 例 如 ， 我 们 可 以 观察 变量 之 间 的 特定 关系 ， 我 们 并 不 让 这 些 变量 
相互 依赖 ， 相 反 ， 假 定 有 其 他 的 隐 含 变量 导出 它们 ， 而 且 依 赖 关系 通 过 更 高 层 的 变 
量 实现 。 

这 种 自 顶 向 下 的 方式 可 以 生成 更 简单 的 模型 ， 如 图 3-6 所 示 。 这 个 模型 已 经 
很 复杂 了 ， 不 是 吗 ? 





















































但 是 如 果 我 们 添加 一 下 隐 含 变量 (在 下 图 中 用 希腊 字母 表示 )， 模 型 会 变 得 
非常 简单 ， 且 易于 处 理 和 理解 。 问 题 是 我 们 并 没有 数据 评估 隐 含 变量 的 概率 分 
布 。 这 就 需要 期 望 最 大 化 算法 了 ， 如 图 3-7 所 示 。 














图 3-7 


























我 们 还 可 以 添加 更 多 的 隐 仿 变量， 以 便 使 用 不 同 的 父 节点 对 变量 归 类 ， 如 图 
3-8 所 示 。 











3.5 ”期望 最 大 化 的 算法 原理 


图 3-8 





3.5 期 望 最 大 化 的 算法 原理 

因为 隐 变 量 观 察 不 到 ， 这 类 模型 的 似 然 函 数 是 边缘 分 布 。 我 们 需要 对 隐 含 变 
量 求 和 。 边 缘 化 会 生成 变量 之 间 的 依赖 关系 ， 使 问题 变 得 难以 解决 。 

期 望 最 大 化 算法 通常 会 在 给 定 分 布 的 情况 下 ， 使 用 期 望 值 填补 缺失 数据 来 
处 理 问题 。 当 我 们 不 断 地 迭代 这 一 过 程 ， 它 会 收敛 到 最 大 似 然 函 数 。 这 个 填补 策 
略 是 通过 给 定 当前 变量 集合 以 及 可 观测 的 变量 ， 计 算 隐 含 变量 的 后 验 概 率 分 布 而 
实现 。 这 就 是 E- 步骤 〈(E 代表 期 望 )。 在 M- 步骤 ，M 代表 最 大 化 ， 我 们 会 调整 模 
型 参数 ， 并 在 新 的 E- 步 又 中 再 次 迭代 。 这 个 过 程 会 一 直 持 续 ， 直 到 我 们 看 到 参数 
收敛 ， 或 者 似 然 率 的 增长 收敛 。 而 且 ， 期 望 最 大 化 算法 可 以 确定 每 一 次 EM 步 又 
后 模型 的 似 然 率 不 会 下 降 。 这 意味 着 当 似 然 率 只 增长 了 很 小 的 量 时 ， 我 们 就 可 以 
说 算法 收敛 到 (局 部 ) 最 大 值 ， 算 法 可 以 停止 了 。 增 长 率 的 多 少 依赖 于 应 用 本 身 ， 
晶 是 当 似 然 率 的 增长 不 超过 107 或 10*， 算 法 也 可 以 停止 。 这 只 是 经 验 规则 。 针 对 
基体 的 案例 ， 读 者 可 以 尝试 绘制 似 然 率 曲线 来 更 好 地 理解 期 望 最 大 化 算法 的 行为 。 
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3.5.1 期望 最 大 化 算法 推导 
假设 我 们 有 数据 集 D， 包 含 N 个 id.d.( 独 立 同 分 布 ) 个 点 ， 图 模型 的 参数 
为 9。 它 其 实 是 一 个 包含 图 模型 中 每 个 变量 所 有 参数 的 变量 。 由 于 写 出 这 个 集合 
会 很 元 长 ， 我 们 可 以 简单 地 把 它 看 作 一 个 高 维 变量 。 
设 D=fo ,XWw}，0 € R。 图 模型 的 似 然 率 有 如 下 的 定义 : 


P(D oO)=[[ PG D) 
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在 完备 情况 下 ， 即 所 有 变量 都 可 以 被 观测 到 ， 似 然 函数 可 以 有 如 下 分 解 : 
Z(2)=log P(DI 0)= 和 log p(x 9) 


-Te PC pol )0 Tn) 
我 们 再 次 看 到 了 之 前 对 数 似 然 率 的 结果 。 这 个 结果 可 以 再 次 写成 每 个 变量 
( 即 图 中 的 节点 ) 的 局 部 对 数 似 然 率 加 和 的 形式 。 
但 是 ， 当 存在 隐 含 变量 的 时 候 ， 我 们 的 结果 就 不 再 优美 。 设 可 观测 变量 为 x， 
隐 仿 变量 为 y。 模 型 的 对 数 似 然 率 可 以 写成 : 
L(0)=10g P(X 0)=l0g2, ,P(x 0) 
这 里 ， 丰 {xy} 是 所 有 变量 的 集合 。 我 们 的 主要 问题 是 : log 函数 内 部 的 求 和 
并 不 容易 计算 。 事 实 上 ， 为 了 获取 似 然 函 数 ， 我 们 需要 边缘 化 掉 隐 含 变量 7”。 有 
了 这 个 求 和 ， 我 们 就 可 能 让 内 部 的 所 有 变量 都 相互 依赖 。 因 此 ， 由 于 使 用 图 模 
型 ， 我 们 会 舍弃 优良 分 解 的 所 有 好 处 。 最 终 ， 计 算 会 变 得 困难 。 
但 是 如 果 使 用 隐 含 变量 上 任意 分 布 40)， 它 可 以 定义 出 对 数 似 然 函 数 的 下 
界 ， 让 我 们 看 看 原因 : 
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p(x J 0) 


2) q(») 





> ,os 2 = 5,4 Yo PGs 0)- Ea Yo8 90)= nl0.0) 


再 逐 行 解释 一 下 其 中 的 原因 : 
这 是 x 上 对 数 似 然 率 的 标准 定义 ， 其 中 我 们 边缘 化 掉 隐 变量 y。 
2. 这 里 我 们 在 分 子 和 分 母 中 引入 gq0)， 以 便 它们 可 以 相互 抵消 。 


3. 基于 这 个 原因 ， 我 们 可 以 使 用 詹 森 不 等 式 或 者 下 界 。 公 式 的 右边 就 是 L(0) 
的 下 界 。 


4. 这 个 下 界 可 以 进一步 简化 。 最 右边 的 项 独立 于 9 入。 



























































3.5 期望 最 大 化 的 算法 原理 


最 终 ， 新 的 函数 Fq.0) 过 LO) 是 对 数 似 然 率 的 下 界 。 
期 望 最 大 化 算法 的 运行 方式 通过 调整 两 个 步骤 中 的 优化 来 完成 : 











E- 步骤 : qi 一 orgmaxvF(9q,OD) 
M- 步骤 : gi 一 aremaxeF(qi,041) 




















这 个 算法 通常 会 用 参数 的 随机 集合 wm 来 做 初始 化 。 

















算法 首先 在 给 定 当前 参数 集合 0. 下 找 出 隐 含 变量 90y) 的 一 个 新 的 边缘 分 布 ， 




















然后 使 用 之 前 的 分 布 9 找 出 参数 9 的 最 大 似 然 估 计 。 事 实 上 ， 在 步骤 1 的 E- 步 
又 中 ，g 的 最 大 值 可 通过 设 定 qiOD)-POe0-) 得 到 。 现 在 ， 下 界 变 成 了 等 式 : 


这 个 结果 非常 重要 ， 
因此 这 个 结果 意味 着 ， 使 用 当前 的 参数 9,,， 我 们 可 以 推出 











Za 011)=L(011) 
为 它 保证 了 似 然 率 在 每 一 步 中 只 








BH 











能 增长 或 保持 不 变 。 
给 定 其 他 观察 变量 下 
































的 分 布 Polc6.)。 这 个 步骤 可 以 使 用 之 前 的 章节 中 的 任何 推理 算法 。 而 且 ， 这 
个 过 程 会 创建 给 定 当前 参数 下 期 望 的 观察 结果 全 集 。 

M- 步骤 中 的 最 大 值 可 以 通过 最 大 化 之 前 推导 中 第 4 行 的 第 一 项 实现 ， 即 分 
布 9 下 期 望 的 对 数 似 然 率 。 
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以 ， 在 期 望 最 大 化 算法 的 开始 介绍 中 ， 我 们 有 7Z。E- 步 又 也 不 会 更 改 0。 





























我 们 知道 E- 步骤 不 会 降低 似 然 率 。 因 此 对 数 似 然 率 只 会 增长 或 保持 不 变 。 实 际 














必用 中 








， 我 们 通常 会 看 到 对 数 似 然 率 的 收敛 。 当 增长 率 很 小 时 ， 我 们 可 以 停止 算 






































法 ， 认 为 当前 的 方案 就 是 优良 方案 。 


3.5.2 





对 图 模型 使 用 期 望 最 大 化 算法 
































假设 图 
点 4 的 








正如 已 经 看 到 的 ， 我 们 会 在 实际 问题 中 使 用 带 有 离散 变量 的 图 模型 。 例 如 ， 








中 的 某 个 地 方 有 两 个 变量 4 和 B， 使 得 B 是 4 的 父 节 点 。 因 此 我 们 有 节 
局 部 分 布 P(4|B)。 








回忆 一 下 ， 最 大 似 然 估计 Oa 的 计算 如 下 : 





包含 4、B 组 合 的 计数 


包含 8 的 计数 
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Ss 











是 我 们 在 用 RR 之 前 所 看 到 的 和 实现 了 的 。 到 目前 为 止 没有 什么 新 的 知 
识 了 。 之 前 ， 我 们 使 用 ddply 函数 高 效 地 在 一 次 调用 中 执行 计算 。 读 者 也 可 以 
使 用 aggregate 函数 来 得 到 同样 的 结果 。 


但 是 这 个 公式 只 会 在 4 和 B 完全 可 观测 的 情况 下 有 效 ! 而 使 用 期 望 最 大 化 
算法 元 服 这 个 困难 很 简单 。 





[i 







































































M- 步骤 就 是 处 理 这 种 情况 : 
N 
PlaA=0 Be = 
0 4=al Bab := 二 


> PlAsdl 0) 

但 是 如 何 获 取 这 两 个 概率 分 布 ? 我 们 在 E- 步骤 中 使 用 观测 变量 蕊 和 选 定 的 
推理 算法 得 到 它们 。 至 于 4 和 B 中 使 用 的 参数 ， 它 们 是 期 望 最 大 化 算法 之 前 步 
又 的 参数 。 

最 后 ， 我 们 回忆 一 下 期 望 最 大 化 算法 的 所 有 步 又 : 

1. 用 随机 参数 初始 化 图 形 模型 。 确 保 分 布 的 总 和 为 1。 随 机 参数 似乎 能 够 
提供 比 均匀 分 布 更 好 的 结果 ， 但 这 只 是 一 个 实用 的 提示 。 

2. 完成 以 下 步骤 ， 直 到 对 数 似 然 率 收 敛 : 

加 卫 - 步骤 : 使 用 选 定 的 推理 算法 计算 所 有 隐藏 的 变量 的 后 验 分 布 。 这 是 9 

分 布 。 
国 M- 步骤 : 使 用 前 面 推断 出 的 分 布 计 算 图 模型 的 新 参数 集 。 
国 更 新 对 数 似 然 率 ， 检 查 是 否 收敛 。 通 常 需 要 检查 当前 似 然 率 和 上 一 步 似 
然 率 的 差异 是 否 小 于 预定 于 的 阔 值 。 
因此 M- 步骤 可 以 使 用 期 望 的 概率 实现 隐 含 变量 可 观测 。 
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3.6 小 结 

在 本 章 中 ， 我 们 看 到 了 如 何 使 用 最 大 似 然 估计 计算 的 图 模型 的 参数 。 读 者 应 
看 到 ， 这 种 方法 不 是 贝 叶 斯 的 ， 可 以 通过 设置 图 模型 参数 的 先 验 分 布 来 改善 。 
这 个 过 程 会 用 到 更 多 的 领域 知识 ， 并 帮助 获得 更 好 的 估计 。 
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3.6 小 结 














当 数据 无 法 完全 观测 到 ， 有 些 变量 是 隐藏 的 ， 我 们 学 会 了 如 何 使 用 非常 强大 
望 最 大 化 算法 。 我 们 还 看 到 了 一 个 完全 可 观测 的 图 形 上 ，R 语言 学 习 算法 的 








实现 。 


现在 ， 我 们 鼓励 读者 使 用 本 章 


























值 。 




















在 下 一 童 中， 我 们 将 看 几 个 简 身 


的 思想 ， 
学 习 最 重要 的 需求 是 专注 于 算法 无 法 生效 的 场景 。 
言 息 。 然 而 ， 当 关注 于 算法 的 错误 以 及 它 不 生效 的 地 方 ， 我 们 会 发 现 数据 中 



































扩展 和 改进 自己 的 学 习 算 法 。 机 器 








任何 算法 都 会 从 数据 集中 提取 


的 ， 但 功能 强大 的 ， 可 以 表示 为 图 模型 的 贝 




















叶 斯 模型 。 我 们 会 看 到 ， 它 们 中 的 一 些 可 以 高 度 优化 以 便 推 理 和 学 习 。 我 们 还 将 








使 用 高 斯 混合 模型 ， 探 讨 期 望 最 大 化 算法 的 应 用 ， 












































进而 找 出 数据 中 的 禾 。 
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在 学 习 完 如 何 表示 图 模型 ， 如 何 计算 后 验 分 布 ， 如 何 用 最 大 似 然 估计 使 用 参 
数 ， 以 及 如 何在 数据 缺失 和 存在 隐 含 变量 下 学 习 相 同 的 模型 时 ， 我 们 要 深入 研究 
使 用 贝 叶 斯 范式 来 进行 建 模 的 问题 。 在 本 章 中 ， 我 们 会 看 到 一 些 简单 的 问题 并 不 
容易 建 模 和 计算 ， 进 而 需要 特定 的 解决 方案 。 首 先 ， 推 理 是 一 个 困难 的 问题 ， 联 
结 树 算法 只 能 解决 特定 的 问题 。 其 次 ， 模 型 的 表示 目前 都 是 基于 离散 变量 的 。 


在 本 章 中 ， 我 们 将 介绍 简单 但 功能 强大 的 贝 叶 斯 模型 ， 并 展示 如 何 作为 概率 
图 模型 表示 它 。 我 们 会 看 到 使 用 不 同 的 技术 ， 它 们 的 参数 可 以 有 效 地 学 习 出 来 ， 
以 及 如 何以 最 有 效 的 方式 在 这 些 模型 上 进行 推理 。 我 们 将 看 到 这 些 算法 可 以 适应 
这 些 模 型 ， 同 时 考虑 到 每 个 特异 性 。 


首先 ， 我 们 开始 使 用 带 有 连续 值 的 变量 ， 即 可 以 取 任 意 数值 的 随机 变量 ， 而 
不 仅仅 是 有 限 数 量 的 离散 数值 。 


我 们 会 看 到 一 些 简单 的 模型 ， 它 们 是 复杂 解决 方案 的 基本 构成 。 这 些 模型 是 
基本 的 模型 ， 我 们 将 从 非常 简单 的 事情 逐渐 过 渡 到 更 复杂 的 问题 ， 如 高 斯 混合 模 
型 。 所 有 这 些 模型 都 在 被 广泛 使 用 ， 并 有 很 好 的 贝 叶 斯 表示 。 我 们 会 在 这 一 章 逐 


步 介绍 。 














































































































































































































































































































具体 地 ， 我 们 会 对 如 下 模型 感 兴趣 : 

国 朴素 贝 叶 斯 模型 及 其 扩展 ， 主 要 用 于 分 类 。 
国 Beta- 二 项 分 布 模型 ， 这 也 是 最 基础 的 模型 。 
国 高 斯 混合 模型 ， 最 常用 的 聚 类 模型 之 一 。 


























4.1 朴素 贝 叶 斯 模型 
朴素 贝 叶 斯 模型 是 机 器 学 习 中 最 出 名 的 分 类 模型 。 虽 然 看 上 去 很 简单 ， 但 是 



































这 个 模型 非常 强大 而 且 
分 类 问题 的 时 候 不 应 i 
特定 的 数据 集 哪 一 种 模 
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型 





三 
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4.1 朴素 贝 叶 斯 模型 








要 很 少 的 精力 就 可 以 输出 很 好 的 结果 。 当 然 ， 在 考虑 
只 局 限于 一 个 模型 ， 我 们 还 要 尝试 更 多 的 模型 ， 看 看 对 于 




















分 类 是 机 器 学 习 中 的 一 类 重要 问题 ， 它 可 以 定义 为 一 种 关联 观察 结果 和 具体 


= 
里 


类 别 的 任务 。 假 设 我 们 有 包含 个 变 








的 数据 集 ， 并 给 每 一 个 数据 点 指认 一 个 类 


别 。 这 个 类 别 可 以 是 {0,1}、{a,b,c,d}、{red,blue,green,yellow} 或 {warm,cold} 等 。 





我 们 会 看 到 有 时 考虑 二 元 分 类 问题 (问题 只 涉及 两 个 分 类 














数 分 类 问题 都 超过 两 种 类 别 。 

















要 更 简单 。 但 是 大 多 




















邮件 





例如 ， 给 定 生理 特征 ， 我 们 可 以 把 动物 分 成 虽 








有 她 动 物 或 仆 行 动物 。 给 定 



































中 用 到 的 单词 ， 我 们 可 以 把 邮件 分 成 垃圾 邮件 或 正常 邮件 。 给 定 信 用 记录 和 其 他 
财务 数据 ， 我 们 可 以 把 客户 分 成 贷款 可 信 或 者 贷款 不 可 信 。 

尝试 接 下 来 的 小 例子 ， 看 看 分 类 的 显 式 展示 ， 如 图 4-1 所 示 。 

Sioma <=matrix(e (10, 3 S 2)) 2 2 

xl1 <-mvrnorm(100, cl(1, 2), Sigma) 

x2 <-mvrnorm(100, c(-1, -2), Sigma) 

plot(xl1l, col =2, xlim =c(-5, 5), ylim =c(-5, 5)) 

points (x2; Co =3) 


x[.2] 








这 个 例子 展示 了 两 个 变量 的 二 元 分 类 问题 。 两 个 变量 通过 x 轴 和 了 轴 




















问题 似乎 很 明显 ， 事 实 上 3 





x[.1] 
4-1 











表示 。 
为 红色 类 别 和 绿色 类 别 的 分 界面 定义 并 不 

















非 如 此 ， 因 
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清楚 。 这 就 是 典型 的 现实 世界 的 例子 。 

在 这 个 例子 中 ， 我 们 依然 可 以 在 中 间 画 一 条 直线 来 分 成 两 个 类 别 。 但 是 有 时 
问题 并 不 明显 ， 一 条 线 也 不 够 用 。 当 一 条 直线 可 以 分 出 两 种 类 别 时 ， 我 们 称 之 为 
线性 分 类 问题 。 当 我 们 需要 一 条 曲线 来 区 分 时 ， 我 们 称 之 为 非 线 性 分 类 问题 。 

我 们 评估 分 类 器 质量 的 方法 是 看 错误 率 。 我 们 希望 最 低 的 错误 率 ， 即 每 次 分 
类 器 预测 数据 的 类 别 都 应 该 是 正确 的 。 然 而 ， 根 据 分 类 问题 的 不 同 ， 错 误 可 能 意 
味 着 不 同 的 结果 。 例 如 ， 在 医疗 分 类 问题 中 ， 把 病人 分 成 得 病 类 别 要 比分 成 健康 
类 别 或 带 有 未 知 检 出 疾病 通常 要 危险 小 些 。 

很 明显 ， 我 们 希望 分 类 器 尽 可 能 准确 。 构 建 分 类 器 的 通用 规则 是 完全 关注 于 
较 难 的 观察 结果 。 


























































































































4.1.1 表示 

朴素 贝 叶 斯 模型 是 一 种 概率 分 类 模型 ， 其 中 X 个 随机 变量 工作 为 特征 ，1 个 
随机 变量 C 作为 类 别 变量 。 模 型 的 主要 〈 强 ) 假设 是 ， 给 定 类 别 、 特 征 都 是 独 
立 的 。 这 个 假设 看 上 去 很 强 ， 而 且 会 给 出 非常 好 的 结果 。 

朴素 贝 叶 斯 模型 的 联合 概率 分 布 是 : 

N 
P(X,C)= pO Lr &; IC) 
它 可 以 使 用 图 4-2 所 示 的 图 模型 表示 。 





















































事实 上 ， 这 是 一 个 非常 简单 的 模型 ， 你 可 以 从 图 中 看 到 所 有 特征 变量 相互 
独立 。 

因此 ， 借 助 幢 叶 斯 规则 ， 给 定 新 的 数据 点 卫 '， 我 们 可 以 计算 最 有 可 能 的 类 
别 ， 有 具体 如 下 : 
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卦 岂 
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4.1. 


里 论 


4.1 朴素 贝 叶 斯 模型 


PICPC PCCPC) 


P(C| X')= 
A Por) Du Re) 















































为 了 使 问题 简单 ， 我 们 会 把 所 有 也 变量 和 类 别 变 量 C 当 作 二 元 变量 。 但 是 
上 多 元 变量 在 这 个 问题 中 处 理 起 来 也 是 一 样 的 。 实 际 上 ， 如 果 你 考虑 连续 
， 这 个 模型 的 理论 也 是 类 似 的 。 例 如 ， 对 于 实 值 特征 ， 我 们 可 以 考虑 高 斯 分 


















































， 并 有 : 


P(x| C= co) 十 [ Mx | ie, az) 

















这 里 ，N 表示 高 斯 分 布 。 


当 特 征 是 二 元 的 ， 除 了 式 特 征 使 用 伯 努 利 分 布 ， 结 果 是 一 样 的 ; 












































N x l=x 
| Oi (二 Oi, ) 


PC=o=[[ Nn.,02)=T] 


F 














里 ，x 取 值 为 {0,1}，04 是 给 定 类 别 c 下 了 的 概率 。 





Xr 


2 学 习 朴素 贝 叶 斯 模型 
朴素 贝 叶 斯 模型 的 学 习 非 常 简 单 。 回 忆 一 下 第 3 章 的 内 容 “ 参 数学 习 ”， 我 们 














Ni 
很 容易 得 到 ， 对 于 每 一 个 9.， 在 二 元 特征 和 二 元 分 类 变量 下 ，0.= N ， 其 中 N。 





是 当 


于 一 


C=c 时 变量 总 的 计数 ，N. 是 类 别 1 的 计数 。 
至 于 类 别 变量 ， 更 加 简单 : zx.=N.， 其 中 是 数据 点 的 总 个 数 。 


原因 和 上 一 章 一 样 。 为 了 更 好 的 理解 ， 我 们 需要 写 出 最 大 似 然 估 计 模 型 。 对 
个 数据 点 ， 概 率 是 : 


Rxcl 0)=P(cl TT NP Cl 0)) 
































知道 在 二 元 分 类 器 中 类 别 只 可 以 取 {0,1} 值 ， 我 们 有 : 
Pocol 0 = TILTl, [Lee oY 


因此 对 数 似 然 率 是 : 
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log P(D| 0)= DNlogn, + ND CD, log Pl gj) 


为 了 最 大 化 这 个 函数 ， 我 们 看 到 可 以 分 别 优化 每 一 个 项 ， 以 便 获得 每 一 个 参 
数 的 简单 形式 。 因 此 ， 很 自然 地 ， 它 输出 了 和 通常 图 模型 一 样 的 结果 。 


除了 手动 实现 模型 ， 我 们 会 使 用 名 为 e1071 的 程序 包 。 如 果 你 还 没有 安装 ， 
可 以 使 用 下 列 代码 来 完成 : 


install .packages ("e1071") 
library (e1071) 


这 个 程序 包 提 供 了 朴素 贝 叶 斯 模型 的 完整 实现 。 我 们 可 以 加 载 数据 并 查看 
结果 : 































































































data (iris) 


model <-naiveBayes (Species~.,data=iris) 
Naive Bayes Classifier for Discrete Predictors 


Calls 
naiveBayes.default(x = x, y = Y, laplace = laplace) 


A-priori probabilities: 
setosa versicolor virginica 
O3333333. 0 3333333 03333333 


Conditional probabilities: 
Sepal.Length 
Y [,1] [;y21 
setosa SQ06. O324897 
VESTESILEGL OF 9.936 O05161711 
Virginicaa 3588 O06358796 


Sepal.Width 
¥ [,1] [72] 
setosa 3.428 0.3790644 
Versieolor 25770 0.3137983 
Virginica Za94 03224966 


Petal .Length 
Y [7] [,2] 





4.1 朴素 贝 叶 斯 模型 


setosa 1.462 0.1736640 
versicolor 4.260 0.4699110 
Virginica 5:552 0.5518947 


Petal .Width 
时 [#4] [2] 
setosa 0.246 ©01053856 
VerSieolor .ls326 O0197752} 
virginica 2.026 0.2746501 


我 们 再 解释 一 下 这 个 例子 。 参 数 laplace 控制 数据 的 拉 普 拉 斯 平滑 ， 以 便 
处 理 数据 并 不 完美 平衡 或 数据 集 有 问题 的 情形 。 我 们 后 边 会 再 回 到 这 个 问题 ， 但 
是 这 是 大 多 数 分 类 问题 都 必须 处 理 的 一 个 主要 问题 。 


使 用 这 个 模型 并 尝试 预测 或 推断 ) 类 别 ， 我 们 有 : 















































p <-predict (model, iris) 


hitrate <-sum(p ==iris$Species) /nrow (iris) 

我 们 得 到 了 0.96 的 命中 率 ， 即 96% 的 数据 点 都 被 正确 分 类 。 这 还 不 错 ， 但 
是 需要 记得 我 们 使 用 了 训练 集 得 到 这 个 百分比 。 你 不 能 只 是 用 训练 集中 的 点 来 评 
古 分 类 模型 的 真正 能 力 。 理 想 情 况 下， 我 们 应 该 把 数据 集 分 成 两 部 分 ， 假 设 我 们 
使 用 1/3 的 数据 进行 测试 ，2/3 的 数据 进行 模型 训练 。 这 种 分 割 需要 以 随机 的 方 
式 完成 : 


























| 























ni <-sample(l:nrow (iris), 2 *nrow (iris)/3) 
no <-setdiff(1:nrow(iris), ni) 
model <-naiveBayes (Species ~., data = iris[ni, ]) 


p <-predict (model, iris[no, ]) 


这 里 ，ni 和 no 是 从 初始 数据 集 随机 得 到 的 数据 点 索引 列表 。 




















4.1.3 ”完全 贝 叶 斯 的 朴素 贝 叶 斯 模型 

尽管 名 字 叫 贝 叶 斯 ， 但 是 这 个 模型 并 不 是 真正 的 贝 叶 斯 模型 。 要 使 模型 具 
完整 意义 的 贝 叶 斯 属性 ， 我 们 应 该 在 参数 上 建立 先 验 概 率 。 在 朴素 贝 叶 斯 模 
型 中 ， 参 数 是 指 类 别 变量 元 和 特征 变量 0,。 这 些 参数 使 用 最 大 似 然 法 进行 估计 。 
但 是 如 果 数 据 集 不 够 平衡 怎么 办 ? 如 果 针 对 特定 的 类 别 数据 点 不 够 多 ， 参 数 如 何 
处 理 ? 我 们 会 得 到 很 差 的 估计 ， 最 坏 的 情况 是 表征 异常 的 参数 权重 都 是 0。 这 显 
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然 不 是 我 们 期 望 的 ， 因 为 结果 完全 是 错误 的 。 我 们 给 正常 特征 和 分 类 分 配 了 大 多 
的 权重 ， 而 对 异常 表示 的 参数 没有 分 配 权 重 。 

这 个 问题 叫 作 过 拟 合 (Over-fitting)。 过 拟 合 的 解决 可 以 使 用 贝 叶 斯 方法 ， 
并 在 模型 中 包含 额外 信息 ， 比 如 “如 果 数 据 没 有 表示 出 来 ， 可 以 假设 它们 有 很 小 
的 概率 ， 而 不 是 零 概 率 ”。 

































































一 种 简便 、 易 行 的 方法 是 使 用 模型 参数 的 先 验 概率 ， 并 使 用 贝 叶 斯 的 方式 开 
发 模型 。 让 我 们 做 一 些 假设 来 简化 计算 。 首 先 ， 我 们 假设 所 有 的 特征 变量 都 取 相 
同 有 限 数量 的 值 。 我 们 记 这 个 数 为 S。 读 者 可 以 对 每 一 个 特征 推广 到 任意 数量 的 
值 ， 但 是 在 我 们 的 讲解 中 会 尽量 简单 。 然 后 我 们 假设 在 特征 参数 0 上 使 用 因子 化 
的 先 验 概率 ， 如 下 : 















































P(0)=P(A TI?) 
这 里 ，0 表示 所 有 参数 。 为 了 更 加 清晰 ， 我 们 使 用 下 列表 示 法 : 
加 0 表示 所 有 特征 参数 ，z 表示 类 别 参 数 。 
加 0, 表示 变量 ,的 所 有 参数 ， 即 条 件 概率 P(XIOC) 的 参数 。 
加 0; 表示 变量 i 的 在 类 别 c 下 的 所 有 参数 ， 即 条 件 概率 PCYi|C=c) 的 参数 。 
国 0 表示 概率 P(X=s|C=c) 的 所 有 参数 。 因 为 总 是 一 个 离散 多 项 式 变量 ( 准 
确 地 说 是 类 别 变量 ) ，P(X=s|C=c)= 0)。 

由 于 我 们 提 到 了 多 项 式 分 布 ， 牢 记 狄 利克 雷 分 布 也 是 多 项 式 〈 以 及 类 别 ) 分 
布 的 一 种 变形 。 如 果 我 们 把 所 有 的 08) 都 当 作 随 机 变量 ， 而 不 仅仅 是 简单 的 参数 ， 
我 们 需要 给 定 先 验 分 布 。 我 们 会 假设 它们 服从 狄 利克 雷 分 布 ， 原 因 有 两 个 ; 

国 狄 利克 雷 分 布 是 值 向 量 上 的 分 布 ， 分 布 值 和 为 1。 这 满足 通用 的 约束 

Ss 
0 =1。 


sd i 

国 狄 利克 雷 分 布 作为 多 项 式 分 布 的 变形 ， 意 味 着 如 果 数 据点 有 类 别 或 多 项 
式 分 布 且 参 数 上 的 先 验 分 布 也 是 狄 利克 雷 分 布 ， 那 么 参数 上 的 后 验 分 布 
也 是 狄 利克 雷 分 布 。 我 们 可 以 简化 所 有 计算 。 

事实 上 ， 偶 强 分 析 也 是 贝 叶 斯 数据 分 析 的 有 力 工 具 。 实 际 执行 过 程 如 下 : 

国 设 a 是 集中 参数 ， 即 狄 利克 雷 分 布 Dir(a) 的 参数 。 
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国 因此 我 们 假设 0 也 服从 狄 利克 雷 分 布 ， 即 P(Ow= Dir(o。 

国 当然 ， 我 们 还 知道 特征 变量 服从 类 别 或 多 项 式 分 布 。 

加 因此 ， 通 过 数据 计算 , 总 分 布 的 参数 后 验 概 率 也 服从 狄 利 死 雷 分 布 
Dir(NA+a)， 其 中 N 是 计数 ， 和 之 前 的 工作 一 样 ! 由 于 是 一 种 变形 形式 ， 过 
程 很 简单 。 

因此 ， 如 果 我 们 希望 把 狄 利克 雷 先 验 概率 放 到 计算 中 ， 类 别 变量 参数 的 后 验 








































































































_N.+Qe 


N+og 和 Ye 


Zz 的 先 验 概 率 是 Dir(a)， 其 中 a=(@,..…, 0.)。 
对 于 特征 变量 的 参数 ， 方 法 也 一 样 : 


C 








ga _ Ni Ne+A 
” NM+D 


0 的 先 验 概率 是 Dir(p)， 其 中 =p,.….，p,) 
稍 等 ， 事 情 就 这 么 简单 吗 ? 是 的 ， 这 都 得 益 于 这 个 贝 叶 斯 模型 的 共 斩 性 。 如 


果 我 们 仔细 看 一 下 这 些 公 式 ， 我 们 会 发 现 因 为 a 和 的 取 值 ，x. 和 68 都 不 会 等 
于 0。 事 实 上 ， 根 据 狄 利克 雷 分 布 的 定义 ， 它 的 参数 都 应 该 为 正 。 


eat rae 通常 ， 二 者 都 会 取 1。 从 狄 利克 雷 分 布 的 
角度 讲 ， 这 意味 着 我 们 给 类 别 和 特征 变量 都 选择 了 均匀 分 布 。 我 们 可 以 允许 参数 
ee 除了 0。 选 择 不 同 的 a 和 值 会 产生 不 同 的 结果 。 我 们 可 以 
改变 狄 利克 雷 分 布 的 两 个 方向 ， 尝 试 输入 不 同 的 值 ， 或 者 我 们 也 可 以 保持 所 有 的 
参数 都 取 一 样 的 值 。 

如 果 狄 利克 雷 分 布 的 参数 取 1， 那 么 会 得 到 名 为 拉 普 拉 斯 平滑 的 公式 。 这 就 
是 我 们 之 前 在 e1071 程序 包 的 函数 naiveBayes 中 看 到 的 。 有 时 ， 它 也 叫 作伪 
计数 〈Pseudo-count) ， 因 为 它 可 以 看 作 手 动 给 数据 集 添加 一 个 例子 。 

但 是 狄 利克 雷 先 验 概率 并 不 是 唯一 可 用 的 概率 。 在 二 元 变量 中 ， 另 一 种 有 意 
义 的 分 布 是 Beta 分 布 。 在 下 一 节 中 ， 我 们 会 更 正式 地 介绍 Beta 二 项 式 分 布 ， 并 


， 其 中 四 => 有 
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给 出 它 与 狄 利 克 雷 多 元 分 布 的 关系 。 我 们 会 看 到 最 终结 果 很 类 似 ， 以 及 如 何 处 理 


Beta 分 布 的 参数 ， 以 便 
































4.2 Beta 二 项 式 分 布 


ES 











可 以 
取 值 在 [0,1] 











首先 用 儿 
1 道 在 玩 猜 J 








户外 






































之 间 。 
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基础 。 你 也 可 以 使 

















述 类 别 和 特 和 


FE 反面 的 游戏 中 硬 
尝试 估计 得 到 正面 的 概率 9。 这 是 一 个 很 
j 其 他 试验 数值 代 蔡 正 






































， 我 们 打算 使 




















人 入 












































调查 结 


历史 上 ， 这 个 模型 已 经 被 Thomas Bayes 研究 过 ， 并 由 
斯 规则 (或 更 加 正式 地 叫 Bayes-Laplace 规则 , 如 第 1 章 概率 推理 中 


此 产生 贝 叶 


的 介绍 )。 


在 这 个 问题 中 ， 我 们 会 继续 遵循 贝 叶 斯 的 方法 ， 我 们 
给 定 参数 下 的 似 然 率 P(x 


布 ， 


， 或 其 他 二 元 答案 。 























0)， 然 后 计算 后 











要 的 问题 ， 因 


有 和 反面 ， 例 如 


验 概率 P(O| x)。 


Beta 二 元 先 验 概率 是 另外 一 个 著名 的 模型 ， 我 们 可 
参数 设 定 一 个 先 验 分 布 。 这 里 
E 作 事件 发 生 与 否 的 概率 


EF 变量 的 不 同类 型 的 先 验 概率 。 


以 在 模型 上 给 一 个 分 布 的 


] 带 有 参数 0 的 二 项 式 分布 。 参 数 0 
， 或 者 试验 序列 中 正面 事件 的 占 比 。 因 


此 ， 参 数 0 





单 的 例子 回顾 一 下 二 项 式 分 布 : 假设 我 们 有 一 枚 硬币 ， 我 们 希 
公平 与 否 。 这 个 游戏 需要 投掷 入 次 硬币 ，3 





























为 它 是 许多 其 他 模型 的 
， 正 负 试 验 结果 ， 民 意 




















Laplace 推广 泛 化 ， 由 




















需要 参数 0 的 先 验 分 





如 果 我 们 考虑 问题 的 完备 性 ， 我 们 也 可 以 计算 预测 性 的 后 验 概 率 P(x|0,x)。 








它 表 示 给 定 参 数 和 之 前 试验 结果 下 新 的 数据 点 《投掷 试验 ) 的 概率 。 


当 我 们 假设 所 有 的 观察 结果 《〈 即 每 次 投掷 的 结果 ) 是 相互 独立 同 分 布 的 ， 我 
们 还 可 以 写成 : 


























P(D| 9)=[ [P10) 











这 里 D= {x, ee 是 数据 集 。 
这 个 假设 是 否 正确 呢 ? 从 到 


们 每 次 投掷 硬币 ， 之 前 的 投掷 对 新 的 投掷 结果 没有 影响 。(2) 我 们 在 所 有 的 投掷 



































论 的 角度 讲 ， 


E 确 





它 是 了 











的 。 原因 有 两 个 : (1) 我 
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中 都 是 用 同一 枚 硬币 ， 因 此 参数 0 不 会 改变 。 所 以 出 现 正面 和 反面 的 概率 是 相同 
的 。 但 是 在 现实 世界 中 ， 是 否 仍然 正确 呢 ? 如 果 我 们 假设 每 次 投掷 都 可 以 微小 的 
改变 屋内 的 空气 流动 ， 而 且 每 次 投掷 都 会 探 掉 一 些 金属 原子 ， 那 么 分 布 当然 不 是 
独立 的 ， 也 不 是 相同 的 。 事 实 上 敏锐 的 读者 已 经 理解 这 些 影响 可 以 完全 忽略 ， 对 
结果 绝对 不 会 有 影响 。 也 许 我 们 应 该 投掷 几 十 亿 次 才 会 看 到 一 些 差 异 。 


然而 ， 在 设计 这 样 一 个 试验 时 ， 我 们 需要 格外 注意 试验 的 条 件 ， 确 保 数据 的 
和 独立 同 分 布 。 例 如 ， 如 果 试 验 是 一 项 民意 调查 ， 我 们 对 相互 紧邻 的 每 个 人 提出 
日 同 的 问题 ， 那 么 第 二 个 人 很 有 可 能 受 第 一 个 人 回答 的 影响 。 这 种 情况 下 ， 数 据 
就 不 是 独立 同 分 布 。 

现在 我 们 可 以 假设 所 需 模块 的 分 布 情况 ， 解 决 贝 叶 斯 间 题 了 。 


伯 努 利 分 布 是 另 一 种 概率 分 布 。 它 需要 给 出 随机 变量 的 概率 9， 对 应 变量 取 
1 的 情形 ， 以 及 1-0 对 应 变量 取 0 的 情形 。 我 们 说 x~Ber(9)， 即 PQI0)=0"(1-0)“。 
其 中 x E {0,1}。 如 果 我 们 多 次 重复 伯 努 利 试验 〈 即 多 次 投掷 硬币 )， 我 们 还 会 得 
到 带 有 概率 分 布 的 数据 集 D= fb :rwv} : 
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RADIO=T[ P60)=0"*4-0)"0% (0-60)...0% (1-0)™ 








由 于 独立 同 分 布 的 假设 和 乘积 的 可 交换 性 ， 如 果 我 们 记 Ni 为 正面 向 上 的 次 
数 ，No 为 反面 向 上 的 次 数 ， 我 们 可 以 重 写 这 个 似 然 率 : 





P(D| 0)=0% (0 


现在 ， 我们 可 以 对 表达 式 取 对 数 : 





ZL(9)=log 0™ (1-0)" = Nilog 0+ Nolog (0) 





在 继续 讲解 之 前 ， 我 们 有 必要 解释 一 下 为 什么 在 计算 中 总 是 使 用 对 数 。 第 一 
个 原因 是 历史 原因 : 概率 是 0 到 1 之 间 的 数 。 计 算 独 立 同 分 布 数据 的 似 然 性 需要 
两 个 概率 相 乘 。 事 实 上 ， 成 百 上 于 个 概率 相 乘 ， 这 样 的 似 然 率 并 不 罕见 。 早 期 的 
计算 机 做 乘法 要 比 做 加 法 慢 得 多 。 因 为 log(a5)=log(a)+tlog(5)， 把 所 有 数据 转换 
成 对 数 然 后 再 做 加 法 会 很 有 用 。 计 算 速 度 通 常 变 得 更 快 。 如 今 ， 情 况 大 大 改观 ， 
乘法 和 加 法 的 处 理 速度 几乎 相同 。 计 算 对 数 的 花 销 有 时 甚至 大 大 超出 改 用 加 法 带 
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来 的 收益 。 


第 二 个 原因 是 当 我 们 对 0 和 1 之 间 的 数 做 乘法 时 ， 结 果 会 变 得 越 来 越 小 。 即 
使 是 现代 计算 机 ， 处 理 数 字 的 能 力也 是 有 限 的 。 而 且 实际 数值 也 是 经 过 离散 化 的 
(通常 按照 IEEE-754 规范 )， 计 算 的 精度 会 受到 比较 大 的 影响 ， 而 且 误差 会 随 着 
计算 次 数 积 累 ， 最 终 导致 很 不 准确 的 结果 。 但 是 ， 使 用 对 数 、 负 数 加 在 一 起 可 以 
使 计算 更 精确 ， 较 小 的 数值 对 最 终结 果 贡 献 更 大 ， 保 证 结果 的 准确 性 。 


通常 ， 我 们 会 采用 负 对 数 似 然 率 ， 只 需要 处 理 正 数 。 另 一 个 原因 是 ， 当 我 们 希 
望 最 大 化 似 然 率 时 ， 我 们 也 可 以 最 小 化 负 对 数 似 然 率 。 这 是 等 价 的 问题 。 许 多 优化 
问题 都 试图 找 出 函数 的 零 值 ( 最 小 值 )。 因 此 采用 负 对 数 似 然 率 实现 起 来 更 简单 。 


为 了 详细 说 明 这 个 思想 ， 只 需 用 R 画 出 图 4-3 所 示 的 图 形 。 


































































































































































































x <-seq(0, 1, 0.05) 
plot(x; =lo0g (x),; t ="b", God =1) 
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图 4-3 








我 们 回 到 投掷 硬币 的 问题 。 我 们 假设 了 表示 投掷 结果 的 随机 变量 服从 伯 努 利 
分 布 ， 并 计算 了 N 次 投掷 序列 的 似 然 率 。 

现在 我 们 从 另 一 个 角度 考虑 这 个 问题 。 假 设 我 们 投掷 了 次 硬币 ，X 是 提前 
知道 的 。 问 题 就 变 成 了 : N 次 投 括 中 得 到 N 次 正面 向 上 的 概率 。 
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通常 这 个 答案 取决 于 硬币 的 “人 和 偏心” 程度。 通常， 硬币 的 “偏心 ”程度 也 是 

N 
已 知 的 ， 是 参数 9。 如 果 0=0.5， 那 么 Ni 应 该 是 了。 我 们 希望 对 于 任意 可 能 的 
值 Ni,， 我 们 都 可 以 在 函数 中 使 用 9 和 NN 计算 出 概率 。 这 种 情况 下 ， 注 意 以 下 问题 : 
我 们 有 多 少 正 例 ?也 就 是 说 ，N 次 投掷 给 出 NM 次 正面 向 上 的 序列 有 和 多少? 在 小 型 试验 
中 ， 例 如 和 N=3，N=2， 我 们 有 {HHTHTHTHHY。 这 是 3 种 可 能 。 通 常 我 们 需要 知道 ， 

















































































































n nl 
n 次 带 有 放 回 的 事件 中 ,+ 值 的 组 合 数 量 。 让 娄 天 ? ”yl _r)! 注意 每 个 序列 
都 是 相互 独立 的 ， 以 及 两 个 独立 事件 的 概率 等 于 概率 之 和 PC V B)=P(4)+P(B)。 

















最 终 ， 参 数 0 的 Ni -和 六 伯 务 各 件 要 是 
P(NI| om es (1- 6 
L 


这 个 概率 分 布 非常 著名 ， 叫 作 二 项 式 分 布 (Binomial Distribution )。 事 实 上 ， 
二 项 式 分 布 通常 由 两 个 参数 定义 : W， 投 掷 总 数 ， 以 及 0。 通常 写作 : 














N 
Plnl em-| jearey 
n 








R 语言 默认 提供 二 项 式 分 布 的 实现 ， 可 以 使 用 下 列 函数 : 


度 。 
pbinom: 累计 。 
qbinom: 分 位 数 。 
rbinom: 随机 数 生成 。 


我 们 可 以 使 用 R 语言 ， 通 过 下 面 简单 几 行程 序 给 出 二 项 式 分 布 : 


再 


dbinom: 

















x <-Seq(l1l, 20 
plot(x, ‘dbinom(x; 20; (Q.5); t sb; Tol 二 ylim ae(0, 0.3)) 





lines (x, dbinom(x, 20,; 0;3), t="b", Col =2) 

lines (x, dbinom(x, 20, 0.1), t ='b', col =3) 

我 们 展示 了 0.1 到 0.5 之 间 3 个 不 同 参数 9 下 的 分 布 。 当 9 很 小 ， 正 例 输出 
si 


























的 概率 迅速 减少 ， 当 0 是 0.5 时 ， 黑 色 曲 线 表 名 50% 的 正 例 输出 明显 是 最 高 的 ， 
如 图 4-4 所 示 。 
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dbinom (x, 20, 0.5) 
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图 4-4 





4.2.1 ” 先 验 分 布 
接 下 来 的 问题 是 ， 我 们 应 该 对 9 使 用 什么 样 的 先 验 分 布 。Beta 分 布 是 常见 的 
选择 ， 它 有 非常 好 的 属性 ， 可 以 作为 三 项 式 分 布 和 伯 努 利 分 布 的 共 秋 分 布 。 


Beta 分 布 具有 很 好 的 形式 ， 类 似 于 二 项 式 分 布 和 伯 努 利 分 布 : 






















































































P(O| op)xc6c -095 


后 面 我 们 会 加 上 归 一 化 常数 。Beta 分 布 的 好 处 是 它 的 值 域 ， 即 0 的 只 在 
[0,1] 内 。 因 此 Beta 分 布 的 9 可 以 理解 成 占 比 或 概率 ， 用 作 三 项 式 分布 和 伯 努 利 
分 布 的 参数 。 这 使 得 Beta 分 布 成 为 先 验 分 布 的 完美 候选 。 要 完整 写 出 公式 ， 我 
们 需要 注意 这 个 分 布 是 密度 分 布 ， 值 域 上 的 积分 必须 是 1。 因 此 通常 写作 : 

























































































0”1(1- 6) 
“| 
| xc -par 





P(O| ww, 5)= 





分 母 上 的 积分 就 是 Beta 函数 。 通 常 我 们 可 以 把 密度 函数 写作 : 


1 gc-1(1_9)p-1- T(g+p) gd 0)67 
Beta(&, DB) T(o)T(p) 


有 Gamma 函数 定义 如 下 : 





P(O| w,D)= 




















局 





4.2 ”Beta 二 项 式 分 布 


r(x)= 上 exp(_t Yd 
当 x 是 整数 时 ,T(x)=(c-1)! 





4.2.2 ” 带 有 共 四 属性 的 后 验 分 布 
现在 我 们 需要 把 二 项 式 分布 和 Beta 先 验 分 布 结合 起 来 ， 获 取 后 验 分 布 。 后 
验 分 布 可 以 使 用 贝 叶 斯 规则 得 到 : 


Pln|N,0)PO IN ‘0.,B) 
Pln|N,a,pB) 


式 替 代 每 一 个 分 布 ， 我 们 有 : 














P(O |N,n,a,p)= ce Pan|N,0)P(0|N,a,p) 














终 ， 通 过 解析 
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I(o)T 
PllN, Op (OIN 0B) 0 0" 0" -0 

















| 个 结果 正比 下 





。 


0"(1— Ov x 8c-1 (1 一 0 一 BM+c-l ED 

事实 上 ， 最 后 的 形式 与 Beta 分 布 的 初始 形式 相同 。 这 意味 着 0 的 后 验 分 布 
也 是 Beta 分 布 。 

因此 我 们 已 经 找到 了 后 验 分 布 ， 可 以 继续 如 下 计算 : 

如 果 n 服从 三 项 式 分 布 Binomial(0,N)，9 的 先 验 概率 是 Beta(0,p)， 那 么 9 的 
后 验 概率 也 是 Beta 分 布 Beta(atn, P+N-n)。 
在 这 个 列子 中 ， 得 益 于 共 斩 属 性 ， 我 们 执行 了 非常 高 效 的 后 验 概率 计算 ， 它 
只 需要 做 一 些 加 法 。 共 轿 的 思想 在 贝 叶 斯 推理 中 非常 重要 。 

























































































4.2.3 如何 选 取 Beta 参数 的 值 

这 取决 于 我 们 希望 在 模型 中 包含 哪 种 类 型 的 信息 。 例 如 ， 我 们 可 能 会 认为 每 
一 个 9 的 值 都 是 先 验 可 接受 的 ， 并 且 希 望 赋予 每 一 取 值 相同 的 重要 度 。 这 就 是 
前 章节 中 狄 利克 雷 函 分 布 的 意义 ， 其 中 添加 了 取 值 为 1 的 伪 计 数 。 
使 用 Beta 分 布 ， 我 们 可 以 由 Beta(1,1) 得 到 均匀 分 布 。 但 是 我 们 也 可 以 使 用 
Beta(0.5,0.5) 尝试 给 靠近 0 或 1 的 极 值 赋予 更 大 的 重要 度 。 男 外 ， 要 使 9 保持 在 
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0.5 附近 ， 我 们 可 以 使 月 








有 Beta(2,2), Beta(3,3)。 值 越 大 ， 


面 的 RR 代码 给 出 了 不 同 值 下 的 分 布 情况 ， 如 


x <-seq(0, 1, length =100) 
Paz (mfrow =c(2, 2)) 
param <-list( 
list(e (2, I), EH, 2 Cl, MW, eC 
list(G(2, 2), (3 2)7 S(td, 2)7 6 
11SE(eG(h UL) 
LisSt(G(0.5, 和 5) 
for (p in param) 
{ 
训 . :过 二 
leg <-character (0) 
fill <-integer (0) 
plot(0, 0, type ="n", xlim =c(0, 
for (v in p) 
t 
lines (x, dbeta(x, v[1], v[2]), 


大 


leg <-c(leg, paste0 ("Betal(", v[1], 


靠近 中 心 的 概率 越 大 。 下 
图 4-5 所 示 。 





Sol 


4)), 
2)), 
4)), 
0.8))) 


")")) 























fill <-c (fill, c) 
二 
} 
legend(0.65; 4, leg,; fill, bty ="n") } 
es 
国 Beta (2, 1) 
品 图 Beta (4, 2) 
ta (6,3) 
8, 4) 
[ 
[= 
T T T T T 
0.0 0.2 0.4 0.6 0.8 1.0 
寸 
国 Beta (1,1) 
二 国 Beta (2, 2) 
国 Beta (3, 3) 
国 Beta (4, 4) 
Le 
So 
T T T T T 
0.0 0.2 0.4 0.6 0.8 1.0 
图 4-5 

















4.3 


E 
高 斯 








点 ， 


高 斯 混合 


模型 




















使 用 非 观 测 变量 的 思想 可 以 带 来 意 才 
量 的 分 布 参数 。 事 实 上 ， 我 们 还 想 知 道 
例如 ， 假 设 我 从 






































想 知 道 











可 以 说 ， 通 过 选择 分 组 ， 例 如 马 ， 我 们 会 观察 到 针对 这 个 分 组 的 特征 ， 
例如 猫 的 特征 。 但 是 ， 任 何 一 个 生理 学 变量 都 不 会 
自己 来 自 于 马 分 组 或 是 猫 


这 种 区 别 存在 的 原因 在 于 ， 我 们 想 把 类 似 的 东西 分 到 一 起 ， 但 是 它们 3 
了 利于 我 们 根据 马 或 猫 
E 解 动物 群体 。 这 就 是 我 们 希望 使 用 隐 变 量 进行 分 组 的 过 程 。 

一 开始 就 使 用 模型 中 的 隐 变 量 
但 是 之 


他 分 纪 


现实 世界 的 局 部 。 然 而 i 
组 ， 进 而 到 


系 ， 


随机 过 程 会 依据 多 项 式 分 布 ， 随 机 选择 一 个 
分 布 ) 随机 选择 数据 点 。 
集 分 布 的 估计 问 题 。 它 3 
的 高 斯 分 布 集合 来 估计 ， 











目 
隐 变 量 的 真正 含义 是 什么 。 
表示 的 数据 。 这 个 数据 可 
几 个 复 ， 并 根据 内 在 的 含义 聚合 起 来 。 再 比如 ， 我 们 可 能 观察 到 动物 的 生 
并 按照 物种 把 数据 点 分 成 例如 狗 、 狂 、 


] 观 察 到 由 一 组 随机 变量 


混合 模型 是 隐 变 量 模型 的 第 一 个 实例 。 
在 于 模型 中 但 是 从 来 都 观察 不 到 的 变量 。 


4.3 高 斯 混合 模型 





隐 变 量 也 叫 作 隐 含 变 量 ， 是 指 存 


























不 到 的 好 处 。 我 们 希望 知道 如 何 估计 变 








牛 等 。 如 果 我 们 考虑 生成 模型 ， 








能 会 聚 成 
学 特 
我 们 







































































分 组 。 





























而 不 是 其 





























文 种 情形 确实 


































































































会 比较 环 手 ， 


引入 一 些 特征 间 的 条 件 独立 假设 或 变量 之 间 的 | 


带 有 明确 的 信息 ， 说 明 

















不 是 
对 此 类 数据 分 














的 特征 

















因为 没有 数据 可 以 来 估计 分 布 。 

















民 次 关 





> 前， 我 们 看 到 诸如 期 望 最 大 化 算法 解决 这 类 问题 很 有 用 。 
而 且 ， 我 们 可 以 通过 

来 简化 模型 ， 使 得 模型 更 加 易于 理解 或 计算 。 

高 斯 混合 模型 中 隐 变 晤 





量 主 要 用 来 估计 密度 。 简 单 地 说 ， 其 中 的 主要 假设 是 ， 











高 斯 分 布 ， 


然后 再 (根据 选择 的 高 斯 





这 是 一 个 很 简单 的 两 步 过 程 
人 














， 同 时 也 简化 了 对 复杂 数据 


型 会 使 用 简单 


















































这 些 分 布 通过 


之 的 思想 。 


4.3.1 定义 


隐 变 量 关 联 在 


在 这 个 模型 中 ， 我 们 记 X 为 可 观测 的 变量 ， 


凯 | 





起 。 这 非常 类 似 于 分 而 治 





Z 是 隐 含 的 多 项 式 随 机 变量 。 模 
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YE 





型 使 用 如 下 概率 分 布 定义 : 


P(X| 9) .70 =1| x,)P(X|Z,= 10, )D AP Z, = 1,0, ) 








这 里 zx 是 混合 占 比 ，P(XIZ=1,0)) 是 混合 成 分 。 在 这 个 公式 中 ， 因 为 Z 是 多 
项 式 分 布 ， 我 们 有 P(Zi7;)= Ti, Z; 是 到 的 第 i 个 成 分 。 

















最 终 ，@ 是 所 有 模型 参数 的 集合 ，0; 是 变量 了 的 参数 。 














当 卫 服从 高 斯 分 布 ， 我 们 可 以 把 之 前 的 分 布 写 成 : 


PE 9)=》 nN] 0 =( p12),)) 




















这 里 ， 之 是 变量 蕊 的 协 方差 矩阵 。 如 果 我 们 把 公式 展开 ， 可 以 得 到 





出 


1 1 一 
P(X| ©)= Day -7D 1 (C/A ) 














这 个 结果 看 起 来 很 复杂 ， 让 我 们 画 出 相应 的 概率 图 模型 ， 看 看 其 中 的 等 价 概念 ， 
如 图 4-6 所 示 。 



































图 4-6 

这 个 图 展示 了 P(X,2) 的 概率 分 布 ， 其 中 Z 节 点 是 白色 的 ， 说 明 它 是 隐 含 变 
。 如 果 我 们 把 Z 边缘 化 ， 得 到 也 的 分 布 ， 我 们 就 可 以 得 到 之 前 的 公式 。 同 时 
FE 意 ， 在 这 个 模型 中 ,对 是 多 变 元 高 斯 分 布 。 

根据 这 个 分 布 ， 我 们 可 以 很 容易 地 计算 出 给 定 耶 时 Z 的 后 验 概率 。 这 是 我 
们 关注 的 值 ， 我 们 希望 知道 观察 到 卫 后 ，Z 处 于 状态 i 的 概率 。 换 句 话说 ， 它 告 
诉 了 我 们 可 观测 变量 的 分 布 来 自 于 哪里 。 首 先 让 我 们 使 用 下 列 代码 画 出 3 个 高 斯 
分 布 的 混合 模型 。 这 次 我 们 使 用 名 为 mixtools 的 程序 包 : 























一 < 
旋 是 




































































4.3 高 斯 混合 模型 


N <-400 


X <-list( 


mvrnorm(N, (1, 1), matrix(e(1, =0.5, =0.5, 1); 2, 2)/4); 


mvrnorm(NM, (3 3), matrix(@(2; O05, O05; 1), 2 2)/4).; 
mvrnorm(N, €(5, 5), matrix(G(1, =0.5, =0.5, 4), 2, 2)/4) 











Plot(0, 0, xlim =c(-1, 7), ylim =c(-1, 7), type ='n') 
Ee hoa so 二 二) 
points (Xx[[i]], pch =18 +i, col =1 +i) 
这 个 小 程序 从 2 维 多 元 高 斯 分 布 中 生成 了 3 个 数据 集 ， 并 在 同一 个 图 中 绘 出 


3 个 数据 集 ， 和 期 望 的 一 样 这 些 点 形成 了 3 组 数据 。 如 果 我 们 重新 对 
行 分 组 形成 一 个 大 组 ， 一 个 有 趣 的 问题 是 找 出 3 个 组 的 参数 。 在 这 个 例子 中 ， 我 





们 有 一 种 




















但 是 在 实 


隐 含 


四 























理想 的 情 型 ， 因 为 我 们 为 每 一 个 组 生成 了 相等 数量 的 点 ， 如 
际 应 用 中 ， 很 少 有 这 种 情况 。 
过 < 
|] 
on 
© [< 
0 2 4 6 
0 
图 4-7 





变量 Z 的 后 验 概 率 可 以 写成 : 














3 组 数据 进 








图 4-7 所 示 。 


P(X| 2Z,=1,0,)P(Z, =1| 7,) NN(X,MY,) 





P(Z, =1 X,©)= J = 
vow) 
这 是 贝 叶 斯 规则 的 又 一 次 使 用 。 


接 下 














来 ， 我 们 需要 估计 模型 参数 2， 再 次 假设 数据 都 是 独立 同 分 布 的 。 如 果 


我 们 把 D={x,} 记 为 数据 集 ， 模 型 的 对 数 似 然 率 可 以 写作 : 


LL(Q D)= > logP (x,l 98)= D108 {DN i 
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这 个 对 数 似 然 率 不 太 容 易 优化 ， 我 们 会 使 用 合适 的 优化 算法 。 正 如 之 前 提 到 
的 ， 隐 含 变量 的 存在 促使 我 们 使 用 期 望 最 大 化 算法 。 
根据 之 前 的 例子 ， 我 们 可 以 假设 变量 Z 有 3 个 状态 {21,z2,z3}， 对 应 3 个 高 其 
分 布 模块 。 高 斯 混合 模型 中 仅 有 的 约束 是 我 们 需要 提前 假设 高 斯 分 布 的 量 。 也 有 
其 他 的 模型 ， 允 许 高 斯 分 布 数量 是 一 个 随机 变量 ， 学 习 算 法 会 尝试 找 出 最 可 能 区 
模块 数 ， 与 此 同时 找 出 每 一 个 模块 的 平均 值 和 协 方差 矩阵 。 
我 们 使 用 之 前 同一 份 代码 ; 




































































library (mixtools) 


N <-400 


Cad 


<-list( 

mvrnorm(N, cl(1, 1), matrix(c(1, -0.5, -0.5, 1), 2, 2)/4), 
mvrnorm(N, ©(3, 3), matrix(e(2, 0.5, 0.5 1); 2, 2)7/4); 
mvrnorm(N, c(5, 5), matrix(c(1, -0.5, -0.5, 4), 2, 2)/4)) 
x <-do.call (rbind, X) # transform X into a matrix 

model2 <-mvnormalmixEM (x, verb =TRUE) 

model3 <-mvnormalmixEM(x, k =3, verb =TRUE) 


计算 这 个 结果 需要 花 些 时 间 。 参 数 verb=TRUE 会 展示 期 望 最 大 化 算法 的 每 
次 迭代 结果 。 其 中 需要 关注 的 是 对 数 似 然 率 。 在 第 一 种 情 型 (mode12) 中 ， 对 
数 似 然 率 会 在 27 步 内 ， 从 3711 下 降 到 -3 684。 读 者 的 结果 可 能 会 有 不 同 ， 因 
为 我 们 会 使 用 mvrnorm 生成 随机 数据 集 。 

mode12 的 问题 是 高 斯 分 布 模块 的 数量 默认 取 为 2: 读者 可 以 在 R 中 运行 
help (mvnormalmixEM) 查看 参数 k。 我 们 知道 混合 模型 中 有 3 个 模块 。 然 而 ， 
mode13 有 3 个 模块 ，k=3， 与 实际 数据 集 相同 。 对 数 似 然 率 在 41 次 迭代 中 ， 只 
从 3 996 降 到 3 305《〈 可 能 和 读者 的 也 有 些许 不 同 )。 看 起 来 ， 当 我 们 给 出 正确 的 
模块 数量 时 ， 第 2 种 情 型 的 收敛 速率 要 好 很 多 。 

我 们 可 以 绘制 期 望 最 大 化 算法 的 对 数 似 然 率 演化 过 程 ， 理 解 两 个 模型 有 什么 
不 同 : 


Plot (model2, xlim =c(0, 50), ylim =c(-4000, -3000) 
Par (new = T) 
plot (model, lt =3, xlim =c(0, 50), ylim =c(-4000, -3000) 





























































































































4.3 高 斯 混合 模型 


需要 注意 的 是 ， 通 过 固定 图 形 的 大 小 ,我 们 可 以 轻松 地 添加 
两 幅 图 。 虚线 对 应 拥有 3 个 模块 的 模型 。 可 以 明显 地 看 到 ， 
对 数 似 然 率 随 着 算法 运行 逐渐 靠近 0。 但 是 使 用 的 迭代 次 数 要 


更 多 。 如 图 4-8 所 示 。 








被 观测 数据 的 对 数 似 然 率 
有 
中 
SS 
be 
QA 
中 
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» 各 7/ 
萎 | ~/ 
本 ’ 
六 时 . 
这 
3 
中 2 
= i 
em 
© 
时 
10 20 30 40 50 
迭代 次 数 
图 4-8 




















观察 mode13 的 结果 ， 我 们 可 以 更 好 地 理解 期 望 最 大 化 算法 所 导出 的 模型 : 


model3$lambda 


[1] 


053359283 0 3342840 0 3298877 


每 一 个 模块 的 占 比 ， 如 所 期 望 的 ， 非 常 接近 初始 占 比 。 读 者 可 以 改变 每 个 模 


块 的 点 的 数量 ， 并 再 次 运行 和 确认 








x <-list( 
mvrnorm(100, cl(1, 1), matrix(c(1, -0.5, -0.5, 1), 2, 2)/4), 
mvrnorm(200, 6(3;, 3),; matrix(G(2, 0.95; O05, 1);, 2; 2)7/4); 
mvrnorm(300, (5, 5) 7 matrix(G(1, =0.5; =0.5; 4); 2, 2)/4)) 

x <-do.call (rbind, XxX) 

使 用 mixtools 再 次 运行 : 
k =3, verb =TRUE) 


model3.2<-mvnormalmixEM (x, 

















我 们 可 以 看 到 对 数 似 然 率 在 84 次 从 代 中 ， 从 -1 925 变 到 -1 691。 但 是 占 比 


分 别 是 0.3 378 457、0.1 651 263 和 0.4 970 280。 这 与 我 们 开始 设 定 的 示 侈 


| 数据 集 
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的 比例 是 相对 应 的 。 

我 们 再 次 确认 其 他 参数 ， 可 以 看 到 它们 类 似 于 我 们 在 数据 集中 的 设 定 。 在 现 
实 世 界 中 ， 我 们 并 不 知道 每 个 模块 的 位 置 和 协 方差 。 但 是 这 个 例子 说 明 期 望 最 大 
化 算法 经 常会 收敛 到 期 望 的 取 值 上 : 























model3s$mu 
[[1]] 

[1 S0235684 3:031763 
[EL2]] 

[1] 0.9854002 1.0289426 
LL3]] 

[Ll 45989129 5.076438 


现在 ， 让 我 们 看 一 下 图 形 化 的 结果 ， 真 正 理解 期 望 最 大 化 算法 都 找 出 了 哪些 
模块 。 


首先 ， 使 用 下 列 命令 绘制 model3， 使 用 plot (modqe13， which=2) 展示 
3 个 模块 ， 如 图 4-9 所 示 。 









































然后 











密度 曲线 





























密度 曲线 





法 必 


























现在 我 们 可 以 从 观察 结果 中 得 出 : 


图 model3 和 moqe13.2 非常 类 似 。 这 与 期 望 的 相同 。 





国 moaqe ] 


12， 即 设 定 














了 2 个 模块 的 模型 ， 看 起 来 给 出 了 一 个 可 以 接受 的 选择 。 
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王 


有 实 上 两 个 底部 的 模块 拥有 几乎 相同 的 走向 。 因 
分 布 包含 两 个 底部 模块 ， 另 一 个 高 
情 型 。 它 也 是 个 不 错 的 结 






































此 算法 收敛 到 一 个 高 斯 
分 布 包含 顶 处 的 走向 不 同 的 模块 的 
4.4 小 结 


在 这 一 章 中 ， 我 们 使 用 了 简单 而 强大 的 贝 叶 斯 模型 。 它 拥有 表示 概率 图 模型 
的 能 力 。 我 们 看 到 了 过 拟 合 问 题 的 贝 叶 斯 解决 方案 ， 它 使 用 先 验 分 布 ， 例 如 狄 利 
克 
























































最 后 一 节 介绍 了 另 一 个 图 模型 ， 它 在 概率 








图 模型 出 现 前 就 有 了 ， 也 就 是 高 斯 
混合 模型 。 它 是 一 类 非常 重要 的 模型 ， 可 以 捕捉 同一 个 模型 中 来 自 不 同 子 集 的 数 
据 。 最终， 我 们 看 到 了 期 望 最 大 化 算法 的 男 一 个 应 用 : 学习 这 个 模 
一 个 高 斯 分 布 模块 的 参数 。 












































型 ， 并 找 出 每 











当然 ， 高 斯 混合 模型 并 不 是 唯一 的 隐 变 量 模型 。 
斯 模型 和 概率 图 模型 框架 。 


里 





有 实 上 ， 它 代表 了 许多 贝 叶 











在 下 一 章 中 ， 我 们 会 继续 研究 贝 叶 斯 推理 算法 ， 
概率 图 模型 算法 : 抽样 算法 
的 算法 之 一 ， 因 为 它 文 持 


























六 


并 介绍 一 组 新 的 非常 重要 的 
， 也 叫 作 蒙特 卡 洛 算法 。 它 被 认为 机 器 学 习 中 最 重要 
F 多 之 前 太 过 复杂 而 不 易 使 用 的 模型 。 
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这 一 章 会 介绍 第 二 类 推断 算法 。 得 益 于 它 的 广泛 性 ， 它 也 许 是 最 重要 的 算 
法 。 它 的 方法 与 之 前 学 习 到 的 完全 不 同 。 其 实 ， 我 们 已 经 看 到 了 两 类 算法 : 一 类 是 
基于 纯 解 析 的 ， 通 过 手动 计算 后 验 概 率 分 布 的 方案 ， 另 一 类 是 使 用 图 模型 中 的 信息 
传递 的 方案 。 两 种 情 型 的 结果 都 是 精确 的 。 对 于 解析 的 方案 ， 计 算 过 程 通常 分 解 为 
计算 后 验 概率 的 函数 。 对 于 信息 传递 的 算法 ， 计 算 后 验 概率 可 以 通过 图 中 的 信息 传 
递 逐 步 实现 。 如 果 图 形 不 适合 这 一 类 算法 ， 计 算 过 程 会 变 得 非常 耗 时 ， 且 难以 控制 。 

但 是 在 许多 情况 下 ， 我 们 经 常用 精度 换 速 度 ， 这 就 是 近似 推断 的 主要 思想 。 
如 果 没 有 那么 精确 ， 是 否 影 响 很 大 ? 然而， 在 多 数 问题 中 ， 近 似 推 理 依然 很 精 
确 。 男 一 方面 ， 它 允许 我 们 处 理 带 有 许多 不 同 分 布 的 更 加 复杂 的 模型 。 这 类 模型 
通常 让 其 他 方法 变 得 完全 不 可 行 。 

我 们 会 在 这 一 章 使 用 一 类 重要 的 算法 ， 即 采样 算法 (Sampling Algorithms)， 
也 叫 作 蒙特 卡 洛 采 样 (Monte-Carlo Sampling)。 其 主要 思想 是 从 后 验 分 布 中 随机 
抽出 数据 ， 以 便 使 用 简单 的 统计 代替 复杂 的 计算 。 例 如 ， 如 果 我 们 想 计 算 一 个 随 
机 变量 的 后 验 概 率 平均 值 ， 我 们 可 以 从 后 验 分 布 中 随机 抽取 许多 样本 ， 然 后 计算 
这 些 样 本 的 平均 值 。 

蒙特 卡 洛 采 样 使 得 贝 叶 斯 方案 在 科学 研究 中 的 应 用 成 为 可 能 。 以 前 ， 贝 叶 斯 
模型 难以 计算 ， 甚 至 无 法 计算 。 

【 体 说 来 ， 我 们 会 介绍 下 列 算法 : 

国 拒绝 采样 和 重要 度 采 样 。 它 们 是 许多 其 他 模型 的 基础 。 

国 马尔 科 夫 链 蒙特 卡 洛 (Markov Chain Monte-Catlo) 和 Metropolis-Hastings 算法 。 

这 两 个 算法 会 涵盖 蒙特 卡 洛 方法 的 大 部 分 知识 。 而 今 ， 许 多 新 的 算法 也 逐渐 
被 提出 。 
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5.1 从 分 布 中 采样 


通常 概率 图 模型 有 一 个 比较 























大 的 问题 ,难以 控制 。 概 率 图 模型 会 变 得 非常 























复杂 ， 以 至 于 无 法 在 合理 的 时 间 内 运行 任何 逻辑 ， 更 不 用 说 学 习 模型 
望 最 大 化 这 类 简单 的 算法 ， 我 们 需要 计算 每 次 迭代 的 后 验 概率 。 如 果 像 当今 的 情 





















































况 ， 数 据 集 太 大 ， 模 型 又 有 许多 维度 ， 那 么 该 算法 也 变 得 无 法 使 用 。 
还 只 是 局 限 在 一 小 类 分 布 上 ， 例 如 多 项 式 分 布 或 者 高 斯 分 布 。 尽 管 它们 可 以 涵盖 
大 量 的 应 用 ， 但 是 并 不 是 任何 问题 


在 本 章 中 ， 我 们 基于 采样 的 思想 ， 考 虑 一 类 新 的 算法 。 这 类 采 相 




















页 都 是 如 此 。 


























了 。 对 于 期 








而 且 ， 我 们 








EF 的 意图 是 随 





机 抽取 一 些 服 从 特定 分 布 的 参数 的 值 。 例 如 ， 如 果 投 搓 一 枚 硬币 ， 我 们 可 以 从 多 
项 式 分 布 中 抽取 一 个 样本 ， 使 得 样本 可 以 取 6 个 值 ， 并 且 概 率 相 同 。 























到 6 之 间 的 数 。 如 果 骨 子 不 是 公平 的 (比如 6 拥有 较 大 的 概率 )， 那 么 我 们 很 有 


可 能 获得 6 的 次 数 比 其 他 数字 多 。 
值 ， 很 有 可 能 看 到 一 个 靠近 6 而 























结果 是 从 1 











如 果 多 次 投掷 般 子 ， 我 们 可 以 计算 结果 的 平均 


FE 靠近 3 的 数字 。 





在 许多 问题 中 ， 我 们 更 关心 分 布 的 特性 ， 不 是 分 布 本 身 。 例 如 ， 它 的 平均 值 





或 方差 。 这 意味 着 ， 在 许多 问题 9 











PF， 我 们 希望 通过 概率 分 布 PCo 知道 








函数 ftx) 的 








期 望 。 这 里 ,， x 可 以 是 任意 维度 上 的 任意 随机 变量 。 例 如 ，P(x) 可 以 是 多 变 元 高 









































斯 分 布 或 概率 图 模型 。 
对 于 连续 变量 的 情 型 ,我 们 希望 解决 估计 期 望 的 原生 问题 ， 如 图 5-1 所 示 。 








5.1 从 分 布 中 采样 


E00= | fpr 
当 x 是 离散 值 时 ， 积 分 蔡 换 成 求 和 。 


在 上 面 截图 的 例子 中 ， 分 布 用 红线 表示 ， 函 数 用 绿 线 表 示 。 我 们 会 马上 发 现 
许多 问题 都 从 这 样 的 分 布 中 抽样 得 到 。 

本 章 的 算法 尝试 解决 许多 类 似 的 问题 。 

采样 的 主要 思想 是 使 用 从 分 布 PCo 中 独立 抽取 的 样本 的 求 和 代 蔡 对 积分 的 
十 计 。 之 前 的 期 望 可 以 近似 地 写成 一 个 有 限 加 和 的 形式 : 


i 
由 = D760") 
































一 、 














如 果 样 本 来 自 于 分 布 PC)， 那 么 E(f)=E(f)。 类 似 的， 这 个 估计 的 方差 是 : 





var(f)=TE(f -EY) 

在 这 个 方法 中 ， 问 题 是 要 获取 独立 样本 。 实 际 情况 并 非 总 是 如 此 ， 有 效 的 样 
本 数量 可 能 比 抽样 的 数据 点 要 少 。 但 是 ， 从 之 前 的 公式 可 以 看 到 ， 了 的 方差 ，3 
不 依赖 x 的 维度 。 这 表明 ， 即 使 在 图 模型 这 样 的 高 维度 问题 中 ， 我 们 也 可 以 通过 
少量 的 样本 获得 较 高 的 精确 度 。 

但 是 ， 正 如 之 前 所 述 ， 主 要 问题 是 从 分 布 P(x) 中 采样 。 有 时 ， 这 个 问题 很 
难 解决 甚至 无 法 解决 。 当 分 布 P(x) 是 以 有 向 图 模型 表示 时 《就 像 本 书 的 大 部 分 
模型 一 样 ) ， 采 样 工作 会 很 简单 ， 叫 作 祖先 采样 〈Ancestral Sampling ) 。 

给 定 变 量 x 在 图 中 的 顺序 ， 比 如 从 上 到 下 ， 我 们 可 以 连续 地 从 每 个 变量 上 采样 ， 
并 把 相应 变量 的 采样 值 赋 给 来 自 后 代 的 样本 上 。 例 如 ， 假 设 我 们 有 图 5-2 所 示 的 图 。 
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我 们 首先 分 别 从 P(4) 和 P(B) 采样 ， 然 后 把 采样 值 赋 给 4=a 和 B=bp， 以 便 我 
们 可 以 从 P(CI4=a,8=b) 中 采样 。 最 后 一 个 采样 是 从 P(D|C=c) 中 采样 。 如 果 所 有 
的 变量 都 观察 不 到 ， 那 么 过 程 很 简单 。 但 是 ， 如 果 有 一 个 变量 可 以 观察 到 ， 我 们 
就 需要 保证 采样 值 和 可 观测 变量 的 值 相 一 致 。 例 如 ， 如 果 我 们 有 4=al， 那 么 我 
们 只 能 对 4=al 下 的 分 布 采样 。 这 种 情况 下 ， 并 不 是 所 有 的 样本 都 有 用 ， 而 且 所 
抽取 的 样本 量 和 可 用 的 样本 量 之 间 的 差距 可 能 会 很 大 。 因 为 每 次 样本 集合 都 与 观 
察 值 不 一 致 ， 我 们 只 能 抛弃 。 可 接受 的 样本 集合 概率 会 随 着 可 观测 变量 数目 的 增 
多 而 减少 。 








































































































5.2 基本 采样 算法 

我 们 首先 看 一 下 基本 的 采样 算法 ， 这 些 算法 可 以 作为 子 模块 用 在 其 他 更 加 复 
杂 的 方法 中 。 本 书 所 有 的 算法 中 ， 我 们 假设 可 以 从 区 间 [0,1] 均匀 地 随机 生成 一 
些 数字 。 计 算 机 生成 随机 数 的 问题 比较 复杂 和 宽泛 。 在 多 数 情况 下 ， 随 机 数 是 通 
过 确定 的 算法 生成 的 ， 因 此 叫 作伪 随机 数 〈Pseudo-random Numbers)。 这 些 数字 
事实 上 并 不 是 随机 的 。 但 是 它们 的 分 布 和 属性 都 非常 接近 真正 的 随机 数 生成 器 ， 
因此 可 以 作为 真正 的 随机 数 使 用 。 伪 随机 数 生成 器 通常 基于 混沌 函数 的 评估 结 
果 ， 其 对 初始 条 件 ， 即 种 子 (Seed)， 非 常 敏感 。 即 使 前 后 两 次 种 子 的 差异 非常 
小 ， 这 些 改变 也 可 以 生成 完全 不 同 的 随机 数 序 列 。 如 今 ， 我 们 还 有 电子 设备 可 以 
从 诸如 热力 噪音 、 光 电 效 应 、 量 子 现象 等 物理 现象 中 生成 随机 数 。 














































































































5.2.1 标准 分 布 

在 及 语言 中 ， 我 们 可 以 从 标准 分 布 中 生成 随机 数 。 但 是 ， 为 了 便于 理解 ， 
我 们 会 回顾 一 下 如 何 从 均匀 分 布 中 生成 随机 数 。 

R 语言 的 随机 数 生成 可 以 通过 以 字母 + 开头 的 一 类 函数 实现 ， 例 如 runif、 
rnorm、 rbeta、 rbinom、 rcauchy、 rgamma、 rgeom、 rhyper、 rlogis 
等 。 事实 上 ， 密 度 可 以 通过 以 字母 d 开始 的 函数 实现 ， 累 积分 布 可 以 通过 以 字母 
P 开始 的 函数 实现 。 


例如 : 














[ 1081 


5.2 基本 采样 算法 























runif (1) 

[1 Wass3396 

这 里 ， 函 数 的 参数 是 希望 得 到 的 随机 数 的 个 数 : 
runif(10) 


[LL] OQ7334754 0.2519494 057332522 0Q%9194623. 0-5867712 O03880692 (00.2869559 
BBY O737980L ‘04886681 0.53231607 


当然 ， 这 些 都 是 〈 伪 ) 随机 数 ， 因 此 结果 可 能 和 刚才 的 例子 不 同 。 





rnorm(1,10,1) 


EL] 3L97L8 

这 个 函数 生成 了 正 态 分 布 的 随机 数 ， 其 中 平均 值 是 10， 方 差 是 1。 如 果 我 们 
生成 许多 随机 数 ， 画 出 实时 的 平均 值 ， 我 们 会 看 到 平均 值 逐渐 收敛 到 真实 数值 。 
这 是 贯穿 本 章 以 及 采样 算法 的 主要 性 质 。 如 图 5-3 所 示 。 















































x <-rnorm(1000, 10, 1) 
y <-cumsum(x)/(1:1000) 
plot(y, t ='1') 
abline (h =10) 











SE 
0 200 400 600 800 1000 
Index 

图 5-3 























从 简单 分 布 中 生成 随机 数 是 一 切 采 样 算法 的 基础 。 我 们 已 经 知道 如 何 从 均匀 
分 布 中 生成 随机 数 。 在 R 中 ， 我 们 可 以 使 用 runif (1,0,1)。 参 数 min 和 max 
默认 为 0 和 1。 因此 zunif(1) 也 是 可 以 运行 的 。 
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假设 我 们 用 函数 妃 .) 转换 均匀 分 布 的 随机 数 ， 以 便 满足 y=ftx)。y 的 分 布 
就 是 : 
& 
dy 


我 们 需要 函数 fx)， 保 证 yy 的 分 布 与 期 望 的 分 布 p(x) 一 致 。 加 入 P0O)， 我 
们 有 : 








p(y)= p(x) 











x*=h(y)= [pe 


因此 ，y=h"'(x)， 它 是 期 望 分 布 的 不 定 积分 上 的 道 函数 。 我 们 以 指数 分 布 为 
例 。 这 个 分 布 是 连续 的 ， 其 中 密度 函数 是 p(x)=hexp(-4x)， 取 值 范围 [0,+ se ]。 加 
入 h(y)， 我 们 有 hQ@)=1-exp(-4y)， 即 指数 分 布 的 累计 分 布 函 数 。 

另外 ， 指 数 分 布 在 描述 泊 松 过 程 中 的 间隔 时 长 非常 有 用 。 它 可 以 看 作 几 何 分 
布 的 连续 值 版 本 。 

因此 ， 如 果 我 们 把 均匀 分 布 的 变量 x 换 成 函数 六 =-4 In(1-x)， 可 以 得 到 指 

我 们 可 以 尝试 性 的 绘制 函数 的 分 布 ， 并 与 指数 分 布 作 比较 。 取 lambda=2 : 


x <-runif(20000) 



























































inv h <-function(x, lambda) - (l/lambda) *log(1 -x) 

hist(inv h(x, 2), breaks =100, fred = F) 

t <-seq(0, 4, 0.01) 

lines(t, dexp(t, 2), lw =2) 

我 们 首先 从 均匀 分 布 U(0,1) 中 生成 2000 个 点 。inv_h 是 之 前 我 们 定义 的 
函数 。 我 们 画 出 柱状 图 。 注 意 参数 freq=F， 确 保 画 出 密度 图 而 不 是 频 度 图 。 最 
终 ， 我 们 使 用 同样 的 参数 画 出 了 指数 分 布 的 密度 函数 (图 中 黑色 曲线 )， 并 看 到 
两 个 分 布 : 一 个 是 经 验 分 布 ， 一 个 是 解析 分 布 。 二 者 吻合 的 很 好 。 


图 5-4 所 示 的 截图 给 出 了 结果 。 
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Histogram of inv_h (x, 2) 
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图 5-4 








这 个 技术 的 主要 问题 是 对 不 定 积 分 的 评估 。 在 简单 情 型 下 ， 这 个 积分 通常 
可 行 ， 但 并 不 保证 总 是 可 行 。 这 样 的 话 ， 我 们 需要 另外 一 种 策略 ， 方 案 是 使 用 更 
简单 的 分 布 来 近似 复杂 的 分 布 ， 以 便 采 样 。 有 两 项 基本 技术 可 以 实现 。 一 个 是 拒 
绝 采 样 〈Rejection Sampling)， 它 使 用 简单 分 布 进行 采样 ， 同 时 允许 样本 服从 更 
加 复杂 的 分 布 。 否 则 惑 把 样本 拒绝 掉 。 另 外 一 项 技术 是 重要 性 采样 ‘Importance 
Sampling)。 在 这 种 情况 下 来 自 近 似 分 布 的 样本 会 被 纠正 ， 以 便 把 偏离 原始 分 布 
的 差异 考虑 进来 。 
这 两 种 技术 都 很 重要 ， 都 可 以 作为 先进 技术 的 基础 ， 例 如 马尔 科 夫 链 蒙 特 卡 
洛 (Markov Chain Monte-Cartlo，MCMC )。 我 们 会 在 本 章 的 第 二 部 分 看 到 。 





























































































































无 论 哪 种 情 型 ， 一 个 主要 思想 是 使 用 建议 分 布 (Proposal Distribution ) ， 其 
目的 是 近似 需要 从 中 采样 的 分 布 。 我 们 会 记 g(x) 为 建议 分 布 ，p(x) 为 初始 分 布 。 








5.3 拒绝 性 采样 
假设 我 们 想 从 一 个 不 简单 的 分 布 中 抽取 样本 。 记 这 个 分 布 为 pG)， 并 假设 我 
们 可 以 对 任意 x 给 出 pC)， 同 时 用 常数 Z 做 归 一 化 : 
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在 这 个 问题 中 ，p(x) 太 过 复杂 ， 以 至 于 无 法 抽样 。 但 是 我 们 有 男 一 个 更 加 简 
单 的 分 布 gCo 可 以 从 中 有 采样。 然后， 我 们 假设 存在 常数 满足 对 于 所 有 x 的 值 ， 
有 kg(x) 三 p (XW)。 函 数 kg(x) 是 比较 函数 ， 如 图 5-5 所 示 。 











S q (x) 


0.6*dnorm (x, 1) +0.4*dnorm (x, 5) 








分 布 p(x) 通过 简单 分 布 生成 : 

0.6 *dnorm(x, 1) +0.4 *dnorm(x, 5) 

拒绝 采样 算法 基于 下 列 思想 : 

国 从 建议 分 布 gq(z) 中 抽取 样本 zo。 

图 ”从 [0,kg(zo)] 上 的 均匀 分 布 中 抽取 第 二 个 zw。 

国 如 果 wo> p (zo)， 那 么 拒绝 样本 ， 否 则 接受 uo。 

在 图 5-6 中 ， 如 果 落 在 灰色 区 域 ， 那 么 值 对 (z0,uo) 要 被 拒绝 。 可 接受 的 值 对 
昌 线 p(z) 下 的 均匀 分 布 ， 因 此 = 值 分 布 与 PCz) 对 应 。 
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图 5-6 














这 个 值 对 被 接受 的 概率 是 : 











pl(accepted ) = 二 [ee 








因为 这 个 概率 依 束 于， 因此 建议 分 布 需要 尽 可 能 地 接近 真实 分 布 。 否 则 算 
法 会 收敛 得 很 慢 ， 还 会 变 得 没有 实际 价值 。 


这 个 算法 非常 简单 ， 实 现 起 来 也 不 难 。 但 是 它 受 困 于 严重 的 维度 问题 。 在 概 
ee 维度 通常 会 变 得 很 大 。 拒 绝 采 样 通常 是 一 维 或 者 二 维 问题 的 合格 方 
。 但 是 拒绝 率 会 随 着 维度 呈 指 数 增长 。 因 此 ， 拒 绝 采 样 可 以 当 作 更 复杂 算法 的 
方案 来 生成 一 些 简单 的 概率 分 布 样本 。 




























































































5.3.1 Ri 二 吾 言 实现 

我 们 思考 一 下 带 有 正 态 分 布 的 高 斯 混合 分 布 的 估计 问题 。 高 斯 混合 和 建议 分 
布 如 下 图 所 示 ， 其 中 建议 分 布 用 红色 表示 ， 且 大 3.1。 

高 斯 混合 分 布 用 黑色 表示 ， 且 有 两 个 峰值 ， 如 图 5-7 所 示 。 
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图 5-7 








我 们 可 以 使 用 R 语言 定义 建议 分 布 和 目标 分 布 ， 如 下 : 


q <-function (x) dnorm(x, 0, 0.5) 


$B <= 人 ution(). Fnorm(l,. 0 Qs) 


BB: <=function(w) O06 *dnorm(x; 0; 下) +04 *dnorm(x; 0.0, 0.2) 


参数 是 任意 的 。 我 们 的 建议 分 布 9 以 0 为 中 心 ， 标 准 差 为 0.5。 目 标 分 布 是 
两 个 模块 的 高 斯 混合 分 布 。 


拒绝 算法 如 下 : 























rejection <-function (N,k,Pp,q,rq) 
{ 
accept <-logical (N) 


x <-numeric (N) 


人 
{ 
z0 <-rq() # draw one point from the proposal distribution 


u0 <-runif(1,0,1) # drawn one point from the uniform 


if(u0 <p(z0)/(k*q(z0))) # rejection test 
accept[i]) <=TRUE 
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else accept[i] <-FALSE 


和 [二 <-z0 
} 


data.frame (x=x,accept=accept) 
} 














参数 如 下 : 

国 N: 样本 数 。 

国 k: 建议 分 布 的 系数 。 

国 p: 要 估计 的 分 布 。 必 须 传递 带 有 一 个 参数 的 函数 。 
国 4: 建议 分 布 (和 之 前 定义 的 讨论 相同 〉。 

国 19: 建议 分 布 的 采样 器 。 











这 个 算法 会 做 入 次 采样 ， 接 收 或 拒绝 for 循环 中 的 每 一 个 样本 。 结 果 存 放 
在 一 个 data.frame 中 。 我 们 会 保存 所 有 的 样本 ， 比 较 拒绝 采样 之 间 的 结果 。 
第 一 列 是 样本 ， 第 二 列 是 表征 样本 被 接收 与 否 的 二 元 值 。 


算法 的 理论 描述 如 下 : 
1. 我 们 首先 创建 两 个 向 量 ，accept 和 x， 以 便 存放 结果 。 
2. 我 们 运行 一 次 循环 : 
(1) 从 建议 分 布 中 抽取 样本 z0。 
(2) [0,1] 上 的 均匀 分 布 中 抽取 样本 U0。 
(3) 接受 或 拒绝 得 到 的 值 ， 并 保存 结果 。 
让 我 们 做 几 个 试验 ， 理 解 一 下 这 个 算法 的 逻辑 。 在 这 些 试验 中 ， 为 了 让 读者 
能 够 重 现 相同 的 结果 ， 我 们 会 使 用 固定 的 种 子 ， 如 下 : 
set.seed (600) 
而 且 ， 我 们 会 使 用 尺度 因子 k=3.1 : 
k -<= 


因此 ， 第 一 个 试验 是 用 100 个 样本 运行 算法 : 
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x <-rejection(100, 


k, p, dq, rq) 


结果 保存 在 数据 框 x 中 ， 头 部 数据 如 下 : 


head (x) 

Xx 
oO007075 
-L8000011 
07572593 
-72502107 
:Ole359 
-or963839 


OO 


< 


OO 


OO 


Sy 
Le] 


CD 


FALSE 
FALSE 
TRUE 

FALSE 
FALSE 
FALSE 


accept 





我 们 可 以 看 到 ， 并 不 是 所 有 的 数据 点 都 被 接受 了 。 在 我 们 的 例子 中 ，100 个 
点 中 的 47 个 点 被 接受 。 看 一 下 被 接受 点 的 柱状 图 ， 我 们 其 实 离 目标 分 布 还 很 远 。 
这 意味 着 ， 我 们 需要 更 长 时 间 运 行 算法 ， 如 图 5-8 所 示 。 

















t <-seq(-2, 2, 


O001) 


hist(x$x[x$accept], 
col =2, lwd =2) 


lines(t, p(t), 


Density 


10 














freq = F, breaks =200, col ='grey') 


Histogram of x$x[x$accept] 
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x$x[x$accept] 
图 5-8 














在 这 个 图 中 ， 我 们 可 以 看 到 接受 的 样本 重新 聚 在 高 概率 区 域 。 但 是 仅仅 运行 
一 小 部 分 样本 是 不 够 的 。 红 色 曲 线 才 是 我 们 的 目标 分 布 。 


现在 我 们 用 5 000 个 样本 运行 算法 : 






































x <-rejection(5000, 


hist(x$x[x$accept], 


5.3 拒绝 性 采样 


k, p, q, rq) 
fredq = F; breaks =200; Go1 ="grey") 


lines(t, p(t), col =2, lwd =2) 


我 们 希望 在 第 二 次 运行 结果 中 看 到 接受 的 样本 可 以 更 好 地 集中 分 布 在 目标 分 


布 的 高 概率 























区 域 中 。 





图 5-9 展示 了 结果 。 


Density 
Ls 2.0 2.5 3.0 


1.0 


0.5 


0.0 




















Histogram of x$x[x$accept] 
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图 5-9 




















这 个 图 确实 看 起 来 好 一 些 了 。 柱 状 图 服从 真正 的 分 布 ， 但 是 还 是 不 够 完美 。 




















sum (x$accept) 


1581 


如 果 我 们 运行 


目标 分 布 。 


因此 ， 现 在 我 们 用 50 000 个 样本 运行 算法 。 运 行 完 成 之 后 ， 我 们 发 现 有 


16 158 个 样 











事实 上 ， 被 接受 样本 的 数量 并 不 高 : 




















算法 的 时 间 更 长 ， 我 们 会 得 到 更 好 的 样本 集合 ， 并 且 更 加 接近 


























本 被 接受 了 。 


结果 也 好 了 很 多 。 








分 布 的 两 个 高 值 被 正确 地 展示 出 来 ， 经 验 分 布 也 非常 接近 目标 分 布 。 这 是 我 
们 用 较 长 运行 时 间 换 来 的 结果 ， 如 图 5-10 所 示 。 
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Histogram of x$x[x$accept] 
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x$x[x$accept] 





























图 5-10 
如 果 我 们 对 所 有 建议 分 布 的 样本 点 〈 不 管 是 否 接受 ) 绘制 柱状 图 ， 它 们 也 非 
常 接近 建议 分 布 ， 如 图 5-11 所 示 。 
col ='grey') 


freq = F, breaks =200, 
lwd =2) 
Histogram of x$x 


hist(x$x, 


lines (t， col =2, 


q(t), 

















展 | 














最 后 ， 我 们 看 一 下 算法 中 被 接受 样本 的 数 





三 内 


里 o 


我 们 运行 一 个 简单 的 函数 ， 如 下 : 








N <-sapply (seq(1000, 50000, 


function (n) 


5.4 重要 性 采样 





L000O) ; 


x <-rejection(n, k, p, qd, rq) 


sum (x$accept) 
}) 


我 们 画 出 结果 ， 如 图 5-12 所 示 。 





plot(N, t ='o') 











Index 


图 5-12 


结果 并 不 意外 。 样 本 越 多 ， 被 接受 的 量 就 越 多 。 因 此 我 们 会 有 一 个 有 趣 的 线 








索 : 长 时 间 和 运行 算法 ， 确 实 可 以 从 被 接受 样本 量 的 角度 来 改善 结果 。 












































拒绝 采样 的 问题 是 我 们 需要 抽样 许多 点 以 便 得 到 好 的 结果 。 然 而 ， 它 依然 是 
一 个 很 好 的 方法 ， 可 以 用 在 许多 问题 中 。 在 下 一 节 中 ， 我 们 会 研究 对 拒绝 采样 的 
改进 ， 即 重要 性 采样 〈Importance Sampling)。 这 个 算法 会 接受 所 有 的 样本 点 。 

















5.4 ”重要 性 采样 
重要 性 采样 是 对 拒绝 采 相 














FE 的 改 3 






































。 所 有 假设 都 是 一 样 的 ， 我 们 会 使 用 建议 分 














布 q(x)。 我 们 还 要 假设 可 以 计算 概率 P(x) 的 密度 值 。 但 是 由 于 分 布 太 复杂 ， 我 们 





无 法 从 中 抽取 样本 。 
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重要 性 采样 基于 下 列 推理 ， 其 中 我 们 需要 评估 分 布 g(x) 下 函数 fx) 的 期 望 : 











E0F | /op 
现在 ， 我 们 引入 分 布 g02) : 


E07)= [0 oda 


和 之 前 一 样 ， 我 们 用 有 限 加 和 近似 这 个 值 : 


和 1 
rs GO) poe) 


























I=1 g(x ()) 
X(0) 
比值 ?一 g(x )U 竺 重要 性 权重 (Importance Weight)， 它 是 由 分 布 q(x) 引入 
的 。 在 这 种 情况 下 ， 算 法 非常 简单 ， 因 为 所 有 的 样本 都 会 用 到 。 而 且 ， 当 建议 分 





























布 和 原始 分 布 非常 接近 的 时 候 ， 重 要 性 采样 的 效率 很 高 。 如 果 函 数 ftx) 变化 很 剧 
烈 ， 我 们 可 以 在 f 取 大 值 的 区 域 下 终止 算法 。 分 布 p 在 这 个 区 域 的 值 应 该 很 小 ， 
加 和 也 应 该 主要 受 低 概率 区 域 的 影响 。 因 此 很 有 必要 提高 样本 数量 来 得 到 更 好 的 
结果 。 尽 管 没 有 被 拒绝 的 样本 ， 有 效 样本 数量 应 该 低 于 真实 的 样本 数量 。 

对 于 带 有 离散 值 的 图 模型 ， 我 们 可 以 通过 下 列 方法 使 用 重要 性 采样 : 

国 对 于 图 中 的 每 一 个 变量 x: 

一 ”如 果 变 量 在 证 据 集 (x 可 以 被 观测 到 ) 中 ， 那 么 把 它 设置 成 自己 的 观 

测 值 。 
一 ”否则 ， 它 会 从 p(xlpa(x)) 中 抽样 ， 其 中 pa(x) 中 的 变量 设置 成 采样 〈 观 
测 ) A 因此 ， 从 p(xlpa(x)) 中 抽样 变 成 了 一 个 简单 的 问题 。 
与 这 个 算法 相关 的 样本 权重 计算 如 下 : 


有 p(x |pa(x)) p(x ee- 
r(x)= Pl wa lag =]] .2 Ge lpa &)) 























































































































































































































我 们 介绍 的 两 种 算法 在 低 维度 上 都 很 有 意义 ， 而 且 可 以 很 容易 地 实现 。 但 是 ， 
我 们 也 看 到 它们 在 高 维度 时 都 会 严重 受 限 。 甚 至 ， 尽 管 所 有 的 样本 都 会 被 接受 ， 重 
要 性 采样 也 需要 较 长 的 收敛 时 间 。 本 章 的 其 余部 分 会 介绍 非常 强大 的 、 基 于 马尔 科 
夫 链 的 框架 ， 即 马尔 科 夫 链 蒙特 卡 洛 (Markov Chain Monte Carlo，MCMC )。 









































5.4.1 R 语言 实现 
拒绝 采样 和 重要 性 采样 的 区 别 在 于 ， 后 者 作为 对 复杂 分 布 的 近似 平均 ， 并 不 


像 一 个 典型 的 











| 样 算 法 。 











通常 ， 
































下 列 算 法 : 





A A 
q(xX) 














我 们 可 以 用 记 














在 这 种 情况 下 ， 


这 个 算法 估计 所 有 .ftx) 函 




















5.4 重要 性 采样 





> ， HGCo)pCo) 





(x) qx= 


这 里 x~q， 即 x 来 自 于 分 布 q。 
这 个 公式 给 出 了 简单 算法 。 我 们 需要 从 gq 中 采样 ， 然 后 用 到 之 前 的 公式 中 。 


数 。 


分 布 函数 9 不 必 像 拒绝 采样 那样 ， 








q(x,;) 


ype) 


q(%,) 








支持 扩展 。 而 且 ， 与 拒绝 





采样 的 思想 不 同 ， 所 有 的 样本 都 会 被 接受 。 但 是 ， 这 个 算法 受制 于 积分 的 计算 ， 
不 能 从 目标 分 布 中 生成 样本 。 


所 以 ， 我 们 看 到 重要 性 采样 有 





























不 同 的 用 例 场 景 。 





这 个 算法 可 以 用 及 语言 实现 ， 代 码 如 下 : 


importance <-function(N, f, p, q, rq) 


{ 


x <-sapply (1:N, rq) 


A <-sum( (f(x) a )/q(x # numerator 
B <-sum(p (x)/q(x # i ee 
return (A/B) 

} 

参数 如 下 : 

国 N: 样本 数 。 








国 f: 希望 得 出 期 望 的 函数 。 


CD 原 书 此 处 为 x， 应 为 笔 误 。 





# sample from the proposal distribution 
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国 p: 目标 分 布 函数 。 

国 4g: 建议 分 布 函数 。 

国 rg: 建议 分 布 的 采样 器 。 

在 下 列 例子 中 ， 我 们 会 估计 几 个 分 布 的 平均 值 ， 因 此 函数 /应 该 是 R 中 
identity 国 数 。 


区 
也 


























算法 很 简单 ， 是 对 之 前 公式 的 实现 : 

1. 从 建议 分 布 中 抽取 六 个 点 。 

2. 计算 公式 的 分 子 和 分 母 。 

3. 返回 结果 。 

在 下 个 例子 中 ， 我 们 会 计算 下 列 例子 的 平均 值 : 


国 使 用 拒绝 采样 中 的 高 斯 混合 分 

国 使 用 高 斯 分 布 近似 学 生 t- 分 布 。 

国 使 用 指数 分 布 近似 Gamma- 分 布 。 

和 之 前 一 样 ， 为 了 能 够 重 现 结果 ， 我 们 会 首先 设置 种 子 ，R 代码 如 下 : 

set. seed (600) 

第 一 个 例子 有 两 个 分 布 ， 其 中 黑色 曲线 是 目标 分 布 ， 红 色 曲 线 是 建议 分 布 。 
我 们 看 到 和 拒绝 采样 中 一 样 的 高 斯 混合 分 布 ， 如 图 5-13 所 示 。 
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5.4 重要 性 采样 























接 下 来 ， 例 子 使 用 学 生 t- 分 布 和 高 斯 分 布 作为 建议 分 布 。 在 这 个 例子 中 ， 学 
生 t- 分 布 有 两 个 自由 度 ， 高 斯 分 布 的 平均 值 是 0， 方 差 是 1.5。 


图 5-14 给 出 了 两 个 分 布 。 
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图 5-14 























最 后 一 个 例子 使 用 Gamma- 分 布 作为 目标 分 布 ， 指 数 分 布 作为 建议 分 布 。 
Gamma- 分 布 的 形状 参数 是 2。 指 数 分 布 的 速率 参数 是 0.5。 


这 两 个 分 布 的 取 值 可 以 从 0 到 无 穷 。 事 实 上 ， 重 要 性 采样 要 求 : 如 果 建 议 分 
布 的 概率 为 0， 目 标 分 布 的 概率 也 必须 为 0。 


图 5-15 给 出 了 Gamma- 分 布 和 指数 分 布 。 
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我 们 可 以 用 R 语言 定义 3 个 例子 的 函数 ， 如 下 。 
对 于 由 高 斯 分 布 近似 的 高 斯 混合 分 布 ， 我 们 有 : 


Bb <=function(x) (06 *dnorm(x; 0; O01y +0.4 *dnorm(x,; 0.6; 0.2) 

















过 <=function(x)} dnorm(x; 0; 0.5) 


rgq <=function(x) rnorm(1, 0, 0.5) 


对 于 由 高 斯 分 布 近 似 的 学 生 t- 分 布 ， 我 们 有 : 

















p <-function (x) dt (x, 2) 
可 <=function (x) dnorm(x;, 0, 1:5) 


xd <=function(x) rnorm(1, 0, 1.5) 


对 于 由 指数 函数 近似 的 Gamma- 分 布 ， 我 们 有 : 


























p <-function (x) dgamma (x, 2) 
q <-function (x) dexp (x, 0.5) 


rd <=function (x) rexp (1l; 0.5) 


然后 我 们 运行 第 一 个 例子 : 





Print (importance (1000, identity, p, q, rq)) 
Print (importance (10000, identity, p, q, rq)) 
Print (importance (50000, identity, p, q, rq)) 


高 斯 混合 的 理论 平均 值 是 0.24。 我 们 的 代码 给 出 下 列 结果 : 





Ll] 2256604 
[1] 072364267 
1] O02409898 


我 们 看 到 拥有 的 样本 越 多 ， 估 计 就 越 准 确 。 但 是 ， 我 们 也 看 到 ， 使 用 10 000 
个 样本 ， 结 果 已 经 足够 精确 。 这 是 重要 性 采样 的 一 大 优势 : 即使 我 们 需要 的 样本 
数 要 比 拒绝 采样 少 ， 也 同样 可 以 完成 任务 。 


第 二 个 例子 使 用 学 生 t- 分 布 和 高 斯 分 布 ， 结 果 如 下 : 


[2] =000285064 
[ll O07353888 
IE "OOOAFSL0L 


由 于 学 生 t- 分 布 以 0 为 中 心 ， 因 此 理论 结果 是 0。 




























































































EL adrLL7 
[1 2:002985 
[11 23294183 
我 们 再 次 看 到 当 样 本 数 从 1 000 增加 至 




















| 10 000， 结 果 得 到 了 改进 。 使 用 


5.4 





要 性 采样 





























10 000 个 样本 后 ， 结 果 似 乎 并 不 再 有 明显 改进 ， 于 是 我 们 停 J 


上 算法 。 











同时 六 

每 次 重新 定义 函数 p、g 和 rg。 

下 一 个 试验 中 我 们 打算 使 
如 何 收敛 到 真实 值 的 。 

我 们 重新 运行 算法 三 次 ， 每 次 都 改变 函数 p、g 和 rg : 

t <-seq(1000, 


x <-sapply(t, function (i) 
这 个 代码 会 使 用 如 


要 
抽取 的 样本 越 多 ， 佑 计 的 平均 值 越 准确 。 
第 一 个 试验 ， 使 用 























j 不 同 的 样本 规模 来 运行 算法 ， 
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XE 



































50000，500) 


importance (i, 




































































0.225 0.230 0.235 0.240 0.245 0.250 0.255 



































第 二 个 例子 ， 使 用 学 生 t- 分 布 ， 图 5-17 所 示 。 











identityr By Hr 





FE 意 到 ， 之 前 的 例子 可 以 使 用 完全 一 样 的 代码 再 次 运行 。 读 者 需要 注意 


看 看 估计 的 平均 值 








rq)) 


生 采 样 算法 ， 运 行 500 次 ， 样 本 量 从 1 000 到 50 000。 


斯 混合 模型 和 高 斯 分 布 ， 结 果 如 图 5-16 所 示 。 
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的 结果 。 我 们 的 建议 分 布 似乎 近似 得 并 不 好 。 事 实 上 ， 和 拒绝 采样 算法 相 比 ， 习 
不 是 完全 稳定 的 。 


j Gamma - 分 布 和 指数 分 布 ， 作 为 建议 分 布 。 医 


近似 推断 





0.5 


0.0 


-0.5 


31.0 








在 这 个 例子 中 ， 我 们 可 以 看 到 ， 
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然 收敛 得 很 好 ， 但 是 有 时 还 是 有 意 想 不 到 
































2 全， 
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性 采样 算法 会 非常 敏感 。 建 议 分 布 给 出 的 结 
最 后 一 个 例子 使 
厂 图 给 出 了 结果 。 
3 T T T 
0 20 40 
Index 
图 5-18 
这 里 我 们 看 到 结果 明显 收敛 了 。 
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5-18 所 示 








5.5 马尔 科 夫 链 蒙特 卡 洛 算法 

















EM 


角 结 果 。 然 后 随 着 样本 数 的 增加 ， 结 果 越 来 越 精 确 。 


在 下 一 节 中 ， 我 们 会 看 到 更 先进 的 技术 〈 可 以 从 任意 分 布 中 采样 ) ， 即 马尔 
科 夫 蒙特 卡 洛 采样 。 它 是 非常 强大 的 方法 ， 在 当今 解决 问题 中 应 用 也 很 广 。 





















































5.5 马尔 科 夫 链 蒙特 卡 洛 算法 

MCMC 方法 源 自 Metropolis、Ulam 和 Rosenbluth 在 物理 学 中 的 工作 。20 世 
纪 80 年 代 ， 该 方法 在 统计 学 中 有 巨大 影响 。 人 们 提出 了 许多 MCMC 算法 和 方 
法 ， 成 为 计算 后 验 概 率 分 布 中 最 成 功 的 方法 。 

我 们 使 用 词语 框架 (framework)， 而 不 是 算法 (algorithm)， 这 是 因为 没有 
单一 的 MCMC 算法 ， 而 是 有 许多 MCMC 算法 。 基 于 要 解决 的 问题 ， 许 多 策略 
都 可 以 实现 MCMC 算法 。 

蒙特 卡 洛 方法 已 经 使 用 了 半 个 多 世纪 ， 解 决 了 许多 复杂 的 估计 问题 。 但 是 ， 
它 的 主要 缺点 在 于 高 维 空间 的 收敛 问题 。 
因此 马尔 科 夫 链 会 在 一 开始 估计 收 敛 问题 和 稳定 问题 。 但 是 直到 最 近 (20 
世纪 80 年 代 和 90 年 代 )， 才 广泛 地 在 统计 估计 中 使 用 。 
































































































































5.5.1 主要 思想 

马尔 科 夫 链 蒙 特 卡 洛 和 之 前 的 思想 类 似 。 我 们 有 个 复杂 的 分 布 p(x) 和 建议 分 
布 g(x)。 但 是 ， 在 这 个 例子 中 ， 变 量 x 的 状态 会 一 直 保存 下 来 ， 建 议 分 布依 赖 于 
变量 的 当前 状态 ， 也 就 是 说 从 gCxlx-) 采样 。x 序列 形成 一 个 马尔 科 夫 链 。 

马尔 科 夫 链 蒙 特 卡 洛 的 主要 思想 是 在 算法 的 每 一 步 中 ， 我 们 从 q(xkxii) 抽取 
一 个 样本 ， 并 基于 一 定 的 标准 接受 样本 。 如 果 样 本 被 接受 了 ， 那 么 g 的 参数 会 根 
据 新 的 采样 值 更 新 。 持 续 这 一 步骤 ， 直 到 新 的 样本 不 改变 g。 所 以 我 么 希望 选取 
简单 的 4 分 布 ， 使 过 程 更 快 。 

和 之 前 一 样 ， 我 们 要 解决 的 问题 是 根据 复杂 分 布 得 到 一 个 函数 的 期 望 : 


































































































Ele)= | fe)pC)dr 





[ 127 1 


第 5 章 近似 推断 





假设 我 们 可 以 估计 Po， 或 者 至 少 可 以 用 一 个 正则 化 常数 去 估计 它 : p03) x p09。 
为 了 解决 采样 问题 ， 人 们 提出 了 Metropolis-Hastings 算法 (1953 年 的 Metropolis 和 
1970 年 的 Hastings)， 提 供 了 一 种 构建 遍历 和 稳定 的 马尔 科 夫 链 的 原生 方法 。 


换 句 话说 ， 这 意味 着 如 果 x~p(x)， 那 么 xi~p(x)。 因 此 马尔 科 夫 和 链 会 收敛 到 
分 布 p(x)。 


马尔 科 夫 链 蒙 特 卡 洛 算法 的 原理 在 某 种 意义 上 与 拒绝 采样 和 重要 性 采样 相 
反 。 它 不 会 直接 关注 整个 建议 分 布 ， 而 是 使 用 更 简单 的 分 布 发 气 p(x) 的 空间 。 

做 一 个 类 比 。 这 个 例子 曾经 被 法 国 巴 黎 第 九 大 学 和 英国 华威 大 学 的 Christian 
Robert 教授 提 过 。 


假设 你 是 一 名 博物 馆 的 游客 。 突 然 里 边 灯 都 瑚 了， 整个 博物 馆 都 漆黑 一 片 。 
唯一 可 以 观看 画作 的 方法 是 用 一 个 手电 。 手 电 的 光 柱 非常 细 ， 只 能 看 见 画 作 的 一 
小 部 分 。 但 是 你 可 以 移动 手电 ， 看 到 画作 的 全 部 部 位 。 然 后 你 就 有 了 一 个 整体 印 
象 。 当 然 ， 你 可 以 说 整个 画作 不 等 同 于 简单 把 局 部 加 起 来 。 这 就 是 男 一 回 事 了 。 
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5.5.2 Metropolis-Hastings 算法 

这 个 算法 会 生成 采样 值 x 的 序列 ， 以 便 序列 可 以 收敛 到 p(x)。 所 以 整个 值 链 
是 p(x) 的 一 个 样本 。 这 些 值 近似 地 按 服从 p(x) 分布 。 但 是 ， 在 开始 的 时 候 ， 由 
于 每 一 个 值 都 依赖 于 之 前 的 值 ， 第 一 个 样本 也 依赖 于 初始 值 x。 因此 ， 我 们 不 推 
荐 使 用 初始 值 来 启动 算法 。 
回忆 一 下 之 前 算法 的 结果 。 根 据 马 尔 科 夫 链 ， 我 们 可 能 会 看 到 ， 尽 管 确定 算 
法 何 时 趋 于 稳定 很 困难 ， 但 是 样本 的 平均 值 很 有 可 能 会 收敛 到 EJ， 经 验 平均 值 
定义 如 下 : 
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这 个 值 几 乎 必然 收敛 到 EE()。 回 忆 一 下 几乎 必然 收 化 的 定义 。 随 机 变量 的 序 
列 耶 ,加 ,… ,成 几乎 必然 收敛 到 变量 闷 如 果 : 





p(s ED sod, ()=XG))= 1 





5.5 马尔 科 夫 链 蒙特 卡 洛 算法 





当然 ， 我 们 不 可 能 真 的 从 变量 的 无 限 序列 中 采样 ， 但 是 我 们 可 以 保证 收敛 。 
因此 理论 上 讲 ， 我 们 知道 它 会 收 僵 ， 从 马尔 科 夫 链 中 采样 等 同 于 从 分 布 中 独立 同 
分 布 采样 。 实 际 操作 中 ， 我 们 需要 很 多 样本 ， 得 到 好 的 结果 。 


Metropolis-Hastings 算法 流程 如 下 : 
1. 抽取 值 x~qGoxi)， 其 中 q(x) 是 建议 分 布 。 
2. 计算 接受 概率 : 





























vet 


p(X ,X11)= 中 
px, 1)g(%,l Xi_1 ) 


3. 取 Xr 值 为 概率 p(x,， Xi1) Xl 概率 1-p(x, Xl) 

给 定 q(x)， 算 法 会 保留 马尔 科 夫 链 中 分 布 p(x) 的 稳定 性 。 这 个 算法 可 以 理论 
上 保证 收敛 到 一 个 任意 的 分 布 q0W)。 这 是 一 个 令 人 满意 的 结果 ， 也 助 推 了 算法 的 
广泛 使 用 。 但 是 实际 问题 通常 比较 复杂 ， 因 为 如 果 建 议 分 布 g(x) 很 罕 ， 收 敛 可 
能 会 出 现 得 很 晚 。 另 外 ， 太 宽 的 分 布 也 可 能 收敛 到 不 稳定 的 结果 上 。 算 法 还 会 收 
敛 ， 但 是 可 能 步 长 很 大 。 由 于 过 早 地 离开 高 概率 的 区 域 ， 算 法 可 能 会 错过 原始 分 
布 p(x) 最 重要 的 部 分 。 

样本 x 的 序列 代表 了 随机 游 走 ， 我 们 可 以 看 看 简单 例子 中 轨迹 的 形状 ， 来 解 
释 之 前 问题 中 的 收敛 现象 。 

我 们 想 从 二 维 高 斯 分 布 中 采样 ， 并 使 用 更 简单 的 二 维 高 斯 分 布 作为 建议 分 
布 。 为 了 处 理 高 维 高 斯 分 布 ， 我 们 需要 程序 包 MASS : 


library (MASS) 
bigauss <-mvrnorm(50000, mu =c(0, 0), Sigma =matrix(c(1, 0.1, 0.1, 1), 2)) 




























































































bigauss.estimate <-kde2d(bigauss[, 1], bigauss[, 2], n =50) 
contour (bigauss.estimate, nlevels =6, lty =2) 


这 个 代码 片段 绘制 了 简单 的 三 维 高 斯 分 布 ， 如 下 图 所 示 。 我 们 会 使 用 更 简单 
的 高 斯 分 布 ， 它 的 平均 值 会 从 当前 的 高 斯 分 布 中 采样 得 到 。 这 还 不 是 Metropolis- 
Hastings 算法 的 应 用 ， 它 只 是 可 视 化 不 同 协 方差 下 随机 游 走 的 例子 ， 可 以 展示 几 
次 迭代 过 后 轨迹 的 走向 。 
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人 





E 标 (0,0)， 如 图 


/ 























随机 游 走 的 起 点 位 于 大 的 高 斯 分 布 的 某 一 中 心 ， 即 例子 中 各 





5-19 所 示 。 


1 四 
wm” -一 一 一 一 ~ 


一 -~ 


























[ 色 等 高 线 表 示 ， 如 图 5-20 所 示 。 


二 























下 图 展示 了 小 的 建议 分 布 ， 用 乡 












































折 分 布 中 心 随机 采样 ， 并 用 之 前 的 值 更 新 中 心 : 











下 面 的 代码 在 小 的 高 其 
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工 <-10 

smalleov <=matrix(e(01, 001, O00L; 和 1》 2 
<=C{0 0) 

下 人 玉生 

{ 


X2 <-mvrnorm(1, mu = x, Sigma = smallcov) 
lines(c(x[1], x2[1]), c(x[2], x2[2]), t ="p", pch =20) 
往返 一 总 和 
} 
我 们 给 出 了 3 个 例子 ， 数 据点 分 别 是 10 个 、100 个 和 1 000 个 。 可 以 明显 看 
到 ， 几 次 迭代 过 后 ， 纯 粹 的 随机 游 走 完全 不 服从 初始 的 大 分 布 。 例 如 ，1 000 次 


迭代 后 ， 随 机 游 走 完全 偏离 。 如 图 5-21 所 示 。 
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图 5-21 








现在 ， 完 成 所 有 Metropolis-Hastings 算法 的 R 语言 流程 。 由 于 假设 可 以 估计 
目标 分 布 p(x)， 我 们 会 使 用 程序 包 mvtnorm 中 的 dmvnorm 函数 。 要 解释 这 个 
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算法 的 行为 ， 我 们 取 一 个 简单 的 高 斯 分 布 作 为 p(x)， 以 及 更 简单 的 均匀 分 布 作为 


q(x)。 
所 以 建议 分 布 就 是 : 


q(x 





PC)=NC0,1)， 一 个 简单 


p =function (x) 
| 
dnorm (x, 


Oz 1) 


mh =function (x, alpha) 
{ 
xt <-runif(1, 


if (runif(1) >p (xt) /p(x)) 


汪 攻 -六 二 半 
return (xt) 
sampler =function(L, alpha) 


{ 


x <-numeric (L) 


| 
x[i] <-mh(x[i -1], alpha) 
return (x) 


Paz (mfrow =c(2, 2)) 
fo (Ll Ln (10, 100; L000 L0000) 
{ 
hist(sampler(l1, 1), 
xlim =c(-4, 4), ylim =c(0, 1) 


lines (x0, P(x0)) 
} 


main =paste(l,"iterations"), breaks =50, 


1 
Xi1)= Leo 一 CX + 0)(x) 
20 


的 高 斯 分 布 如 下 : 


x -alpha, x talpha) 


半 交 全 二 > 




















第 一 个 函数 是 评估 p(x)。 后 面 是 使 ) 
Hastings 算法 步骤 。 




















之 前 定义 的 建议 均匀 分 布 的 Metropolis- 





5.5 马尔 科 夫 链 蒙特 卡 洛 算法 


然后 我 们 实现 采样 器 ， 包 含 两 个 参数 : 进 代 次 数 工 和 均匀 分 布 的 宽度 alpha。 
alpha 武大 ， 建 议 分 布 覆盖 的 区 域 越 广 。 这 个 值 过 大 ， 后 导致 很 多 跳动 和 不 好 的 
结果 。 这 个 值 过 小 ， 尽 管 我 们 从 理论 上 知道 算法 收敛 ， 但 是 依然 会 严重 影响 算法 
的 数值 收敛 性 。 

代码 的 最 后 抽取 了 10 个 、100 个 、1 000 个 和 10 000 个 样本 用 于 和 迭代。 运行 
代码 ， 我 们 可 以 得 到 下 面 的 图 形 。 读 者 的 结果 可 能 会 有 不 同 ， 因 为 我 们 是 随机 抽 
取 的 样本 ， 但 是 整体 图 形 是 相似 的 。 如 图 5-22 所 示 。 

10 迭代 次 数 100 选 代 次 数 
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sampler (1,1) sampler (1,1) 


1 000 迭代 次 数 10 000 迭代 次 数 
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00 02 04 06 08 1.0 





可 师 人 


4 2 6 2) -2 0 2 4 -4 = 0 2 4 
sampler (1,1) sampler (1, 1) 























可 以 明显 看 到 ， 只 进行 10 次 迭代 ， 结 果 很 差 。 经常 100 次 迭代 热身 后 ， 结 果 
似乎 靠近 了 平均 值 ， 但 是 方差 相对 p(x) 还 是 较 大 。1 000 次 迭代 后 ， 我 们 的 数据 集 
开始 非常 接近 目标 分 布 。 最 后 经 过 10 000 次 迭代 ， 我 们 得 到 一 个 很 棒 的 柱状 图 。 


接着 ， 我 们 改动 alpha， 进 行 1 000 次 迭代 。 我 们 使 用 下 列 代码 ， 如 图 5-23 
所 示 。 
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Paz (mfrow =c(2, 2)) 
fo (A (Ol OD LT B20)) 


hist(sampler (1000, a), main =paste("alpha=", a), breaks =50, freq =F, 


xlim =c(-4, 4), ylim =c(0, 1) 
lines (x0, Pp (x0)) 
} 





) 
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图 5-23 























我 们 再 次 看 到 非常 有 趣 的 结果 ， 算 法 理论 上 是 收敛 的 ， 但 是 实际 中 还 需要 
些 先期 调试 。alpha=0.5 或 alpha=1 对 于 覆盖 分 布 似乎 已 经 足够 。alpha=0.1 
太 窗 ， 不 能 快速 地 在 1 000 次 迭代 中 探索 问题 空间 。 相 反 ，alpha=10 给 出 双 峰 分 


























布 。 这 说 明 跳动 太 大 了 。 


如 果 我 们 运行 更 多 的 迭代 次 数 ， 例 如 50 000 次 ， 我 们 会 看 到 算法 的 稳定 趋 


势 ， 大 部 分 建议 分 布 都 会 收敛 到 到 












































EE 想 的 结果 。 而 alpha=0.1 





L 和 alpha=10 依 


然 不 合适 ， 但 是 这 么 多 次 迭代 后 ， 整 体 结果 还 是 可 以 接受 的 ， 如 图 5-24 所 示 。 








5.6 概率 图 模型 MCMC 算法 R 语言 实现 
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图 5-24 


5.6 概率 图 模型 MCMC 算法 R 语言 实现 
事实 上 ， 这 一 节 的 标题 甚至 可 以 作为 一 本 书 的 名 字 。 有 些 教材 只 专注 于 这 一 
课题 。 这 一 领域 的 研究 也 很 活跃 ， 每 年 都 有 许多 新 的 算法 提出 。 


有 许多 程序 包 可 以 实现 MCMC 的 各 种 类 型 的 算法 。 也 有 很 多 更 原生 的 框 
架 ， 例 如 著名 的 BUGS〔 以 及 相应 的 开源 实现 OpenBUGS )， 新 的 更 强大 的 框架 
Stan。 BUGS 是 历史 上 第 一 个 在 贝 叶 斯 统计 中 推出 MCMC 推断 的 框架 ， 也 引起 
了 这 个 领域 的 变革 ， 使 得 每 个 人 都 可 以 从 贝 叶 斯 统计 中 获 益 。 

如 果 介 绍 所 有 框架 以 及 具体 图 模型 的 所 有 MCMC 算法 ， 需 要 我 们 再 出 一 本 
书 。 所 以 ， 我 们 在 这 一 节 只 关注 RR 语言 编程 环境 。 事实 上 ， 这 些 算法 也 适用 于 
C++、Python、Matlab、Julia、Stata， 甚 至 命令 行 ! 它 文 持 目前 看 到 的 各 种 类 型 
的 贝 叶 斯 模型 。Stan 主要 使 用 MCMC 算法 执行 推断 。 
































































































































册 





山中 























Ct 


























第 5 章 近似 推断 


5.6.1 安装 Stan 和 RStan 





具体 的 过 程 可 以 在 网 页 https://github.com/standev/rstan/wiki/Rstan-Getting- 
Started 中 找到 。 


因此 我 们 只 回顾 一 下 基本 的 步骤 ， 完 成 Stan 和 RStan 安装 : 


Sys.setenv (MAKEFLAGS ="-j4") 








install.packages ("rstan", dependencies =TRUE) 
安装 过 程 可 能 会 很 长 。Stan 需要 大 量 的 程序 包 。 最 后 ， 根 据 R 语言 的 安装 
不 同 ，R 环境 可 能 会 重启 ， 但 是 通常 来 说 并 不 需要 。 


加 载 RStan， 方 法 和 别 的 程序 包 类 似 : 




















library (rstan) 


你 应 该 会 看 到 如 下 介绍 信息 ， 告 诉 你 Stan 已 经 准备 好 了 : 

















Loading required package:ggplot2 

rstan (Version 2.9.0, packaged:2016-01-05 16:17:47 UTC, GitRev: 
05c3d0058b6a) 

For execution on a local, multicore CPU with excess RAM we recommend 
calling 

rstan options (auto write =TRUE) 


options (mc.cores = parallel::detectCores () ) 


5.6.2 RStan 的 简单 例子 

我 们 介绍 一 些 RStan 中 的 基本 概率 。 我 们 鼓励 读者 了 解 更 多 的 信息 ， 尝 试 
更 多 的 例子 。 

RStan 是 基于 一 种 描述 贝 叶 斯 模型 的 概率 编程 语言 。 例 如 ， 我 们 可 以 生成 
一 个 简单 的 单 变 量 高 斯 模型 : 




















parameters 


real y; 


model 








5.7 小 结 


y ~normal (0,1); 
} 


这 是 Stan 代码 ， 不 是 R 代码 。 我 们 也 可 以 使 用 R 语言 模拟 这 个 模型 











fit =stan (file ='example.stan') 


这 个 模型 会 使 用 一 个 MCMC 算法 模拟 生成 ， 结 果 可 以 打印 出 来 : 











print (fit) 
Inference for Stan model:example. 
4 chains, each with iter=2000; warmup=1000; thin=1; 


post-warmup draws Per chain=1000, total post-warmup draws=4000. 


mean se mean Sg Zans 25% 50% 715% 973 WH ett Riat 
y 0.00 Oa03 Ode =lag3 =0a63 =001 O64 Lage lL 站 
1 O48 002 "0069 =2539. =0963 =020. =0505 O00 4737128 


Samples were drawn using NUTS (diag e) 
For each parameter, n eff is a crude measure of effective sample size, 
and Rhat is the potential scale reduction factor on split chains (at 


convergence, Rhat=1). 

有 意思 的 是 ， 这 个 程序 包 pe 丸 身 过 程 ， 它 会 计算 简单 
高 斯 分 布 的 有 效 样本 规模 的 估计 。 这 个 值 是 “1191”(n_eff 列 )， 与 我 们 在 之 
前 章节 中 看 到 的 结果 相差 不 大 。 























5.7 小 结 
在 这 一 章 中 ， 我 们 看 到 了 第 二 个 (可 能 是 最 成 功 的 ) 执行 贝 叶 斯 推断 的 方 
法 ， 该 方法 使 用 拒绝 采样 和 重要 性 采样 ， 它 们 都 使 用 比 目 标 分 布 简单 的 分 布 作 
这 两 个 算法 通常 在 低 维 问题 中 非常 有 效 。 但 是 在 高 维 问题 中 ， 它 们 收敛 起 来 
花费 的 时 间 很 长 。 
我 们 介绍 了 贝 叶 斯 推断 中 最 重要 的 算法 : 使 用 Metropolis-Hastings 算法 的 马 
尔 科 夫 蒙 特 卡 洛 方法 。 这 个 算法 通用 性 很 强 ， 而 且 有 很 好 的 性 质 : 算法 会 收敛 
到 目标 分 布 。 但 是 ， 要 快速 收敛 ， 需 要 我 们 仔细 调节 参数 。 但 是 理论 上 算法 肯 
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定 可 以 收敛 。 
在 下 一 章 中 ， 我 们 会 研究 最 标准 的 统计 模型 :线性 回归 。 它 似乎 超出 了 本 

的 范围 ， 但 是 这 个 模型 太 重 要 了 ， 还 是 需要 介绍 一 下 。 但 是 ， 我 们 仅仅 介绍 它 的 


简单 形式 ， 转 而 研究 它 的 贝 叶 斯 解释 ， 即 线性 回归 如 何 用 一 个 概率 图 模型 表示 ， 
我 们 可 以 从 中 得 到 哪些 启示 。 


vv 
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贝 叶 斯 建 模 一 一 线性 模型 
































线性 回归 模型 力求 解释 一 个 变量 在 另 一 个 变量 或 其 他 一 些 变量 存在 情况 下 的 
行为 。 模 型 假设 变量 之 间 的 关系 是 线性 的 。 通 常 ， 目 标 变量 ， 也 就 是 需要 解释 的 

















变量 的 期 望 是 其 他 变量 的 仿 射 变换 。 












































线性 模型 可 能 是 用 途 最 广 的 统计 模型 ， 主 要 是 因为 它 简 单 、 明 了 ， 而 且 也 经 
过 了 几 十 年 的 研究 ， 提 出 了 所 有 可 能 的 扩展 和 分 析 模 型 。 所 有 的 统计 程序 包 、 语 





























言 或 者 软件 都 可 以 实现 线性 回归 模型 。 


这 个 模型 的 思想 很 简单 : 变量 需要 被 
性 组 合 一 一 带 权重 的 x 总 和 解释 。 














| 慌 

















变量 x 解释， 或 者 说 是 被 x 的 线 


这 个 模型 诞生 于 18 世纪 Roger Joseph Boscovich 的 工作 中 。 然 后 ，Pierre- 
Simon de Laplace，Adrien-Marie Legendre 和 Carl Friedrich Gauss 都 使 用 了 这 个 方 











法 。19 世纪 的 数学 天 才 Francis Galton 可 能 是 第 一 个 使 用 ” 线 ; 
这 个 模型 可 以 简单 地 写成 变量 线性 组 合 的 形式 ， 如 下 : 


y=D+DX+PDzD +...+P,x,+e 


到 











生 回归 ”这 个 词 的 人 。 


这 里 ,，y 是 要 解释 的 变量 ，x 用 来 解释 变量 ，e 是 可 以 被 x 解释 的 随机 噪声 。 




















这 个 噪声 通常 是 平均 值 为 0、 方差 为 c 高 斯 分 布 随 机 变量 。 
那么 ， 在 实际 问题 中 这 个 公式 的 是 什么 意思 ? 模型 背后 的 直 
一 个 被 重新 刻画 的 x 都 对 了 产生 一 点 贡献 。 换 名 话说， 7 是 由 一 
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EE 
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诉 我 们 ， 
部 值 x 求 和 





得 到 的 。 








有 很 多 方法 都 可 以 从 数据 集 估计 参数 的 值 。 在 很 多 情况 下 ， 估 计 每 一 个 参数 
的 值 是 最 重要 的 工作 ， 需 要 仔细 研究 。 最 常用 的 方法 是 最 小 二 乘法 ， 它 试图 最 小 
























































化 真实 y 值 与 x 总 和 估计 值 之 间 的 差异 。 事 实 上 ， 和 其 他 许多 模型 一 样 ， 把 y 表 





























示 成 其 他 变量 的 和 ， 是 对 实际 值 的 近似 。 人 们 提出 了 许多 数学 工具 和 算法 来 回答 





二 
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线性 回归 的 模型 质量 和 参数 质量 。 








Rx 


在 本 章 中 ， 


二 
已 经 超卓 











词语 “差异 ”只 是 一 个 类 比 。 在 这 个 例子 中 , 正确 的 说 法 应 
该 是 均 方 误差 。 





我 们 会 很 快 地 介绍 线性 回归 的 基础 知识 。 全 方位 的 线性 回归 知识 








旬 出 了 本 书 的 范围 ， 我 们 假设 读者 之 前 接触 过 这 个 模型 。 





























本 章 目 的 在 于 进一步 给 出 线性 回归 的 贝 叶 斯 解释 。 事 实 上 ， 在 标准 模型 中 ， 











我 们 只 关注 》 和 参数 的 期 望 。 但 是 ， 如 果 我 们 把 每 一 个 模块 都 当 作 一 个 随机 变 



































量 ， 线 性 回归 模型 就 可 以 用 贝 叶 斯 的 思想 解释 ， 进 而 可 以 从 中 学 到 许多 新 的 技 











术 ， 以 及 处 理 全 概率 分 布 而 不 仅仅 期 望 带 来 的 好 处 。 
我 们 会 在 本 章 中 学 到 以 下 内 容 : 




















什么 是 线性 回归 ? 在 及 语言 中 如 何 使 用 这 个 模型 ? 
线性 回 





归 模 型 的 主要 假设 是 什么 ? 当 假设 不 成 立时 ， 怎 么 办 ? 








如 何 手动 和 使 用 了 语言 计算 参数 ? 








如 何 用 概率 图 模型 解释 线性 回归 ? 



































如 何 使 用 贝 叶 斯 方法 估计 参数 ?这 样 做 的 好 处 是 什么 ? 
贝 叶 斯 线性 回顾 的 R 程序 包 介 绍 。 
什么 是 过 拟 合 ? 为 什么 避免 过 拟 合 很 重要 ? 什么 是 贝 叶 斯 方案 ? 

















6.1 线性 回归 





我 们 首先 看 一 下 统计 中 最 简单 、 最 常用 的 模型 。 它 会 拟 合 数 据 集 上 的 一 条 直 
线 。 我 们 假设 有 
























































个 (x,，yi) 的 值 对 集合 ， 其 中 的 值 对 都 是 独立 同 分 布 的 。 我 





























们 希望 找到 一 个 模型 满足 : 


y=Bx+Pot+ < 

















谓 斯 噪音 。 如 果 我 们 假设 上 eR"， 那 么 期 望 值 可 以 写成 : 








y=po > Ah 





或 者 使 用 矩阵 记 法 ， 我 们 也 可 以 把 截 距 访 放 到 一 个 参数 向 量 中 ， 并 在 了 对 中 














6.1 线性 回归 





添加 值 为 1 的 列 ， 使 得 耻 (1x0,.… x,)， 最 终 有 : 














= 有 
图 6-1 给 出 了 一 个 数据 集 的 示例 ， 并 带 有 相应 的 回归 直线 。 






































我 们 会 马上 看 到 ， 在 R 环境 中 ， 拟 合 一 个 线性 回归 模型 是 很 简单 的 。 这 里 ， 
我 们 使 用 人 工 数 字 生 成 一 个 小 数据 集 ， 以 便 重 新 生成 之 前 的 图 形 。R 语言 中 ， 拟 
合 线性 模型 的 函数 是 Im () ， 它 是 许多 问题 的 主要 工作 函数 。 当 然 ， 我 们 还 会 在 
这 一 章 中 介绍 更 加 先进 的 算法 : 


N =30 
天 三 下 mLEE (NT OF 20) 

























































































y =1.2 *x +4 +rnorm(N, 0, 4) 
plot (x, y) 

m =lm(y ~x) 

Xxx =seq(0, 20, 1) 


lines (xx, xx *m$coefficients[2]+m$coefficients[1], col =2, lw =2) 
在 这 个 例子 中 ， 我 们 生成 了 0 到 20 之 间 的 30 个 随机 数据 点 。 然 后 ， 我 们 在 斜 
率 为 12、 截 距 为 4 的 直线 上 计算 y， 并 添加 一 个 随机 噪声 ， 其 平均 值 是 0， 方 差 是 4。 


我 们 使 用 函数 Im () 计算 模型 m。 最 后 我 们 画 出 结果 。 
打印 出 mm 的 参数 ， 可 以 看 到 以 下 结 
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Calls 


lm(formula = y ~x) 


Coefficients: 
(Intercept) 并 
3:919 L238 





我 们 看 到 截 距 是 3.919， 很 接近 4; 和 斜率 是 1.238， 也 很 接近 1.2。 因 为 我 们 
添加 了 随机 噪声 (方差 为 4)， 理 论 模型 和 实际 拟 合 模 型 之 间 存 在 差异 ， 这 并 不 
奇怪 。 

















6.1.1 估计 参数 

为 了 估计 参数 ， 我 们 需要 偏离 度量 。 或 者 说 ， 我 们 需要 度量 模型 和 数据 集 之 
间 的 差异 。 当 然 ， 我 们 的 目标 是 最 小 化 差异 。 这 里 词语 “差异 ”的 含义 很 宽泛 ， 
许多 函数 都 可 以 计算 这 个 差异 。 但 是 ， 人 们 发 现 最 有 用 、 最 实际 的 函数 是 均 方 误 
差 ， 定 义 如 下 : 





















































1 N n 
MSE =|| Y —X7 BI? i sa. BY 
要 估计 模型 的 参数 ， 我 们 求助 于 之 前 的 一 个 方法 ， 最 大 似 然 率 。 在 例子 中 ， 
似 然 率 表示 给 定 一 些 参数 ， 观 测 到 数据 集 的 概率 。 我 们 假设 数据 集 依然 是 独立 同 
分 布 的 。 这 人 允许 我 们 写 出 如 下 最 大 似 然 率 函 数 : 

















0= argmaxop(D10) 
这 里 0 是 所 有 参数 {fp1,.…, ,} 集合 。 
我 们 希望 找到 所 有 参数 最 大 化 这 个 概率 。 因 为 我 们 假设 数据 是 独立 同 分 布 
的 ， 我 们 可 以 写 出 : 















































0= argmawg [ [Pp (y,| x;0) 








然后 ， 要 简化 计算 ， 我 们 使 用 对 数 似 然 率 ， 计 算 求 和 而 不 是 求 积 : 








0= argmaxg 》 p (y,| x,0) 
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接着 ， 我 们 需要 概率 的 解析 形式 。 在 线性 回归 中 ， 我 们 可 以 看 到 目标 数据 集 
是 服从 高 斯 分 布 的 ， 如 下 : 
pO|x0)=N OX ao) 
如 果 使 用 对 数 似 然 率 ， 我 们 把 概率 蔡 换 成 使 用 高 斯 分 布 的 密度 函数 ， 我 
们 有 : 

















logL(9)= 》 log 


i=1 








1 


N 1 下 A 已) 
一 下 人 平 ] 人 
2 | | 2za” | | 207 


Oo 








六 
N 1 YY CN -PB X,Y 
DAE | 0 2 
NO 


20 





N 1 1 
=—log 有 
2 270” 20 


7 -PX 

这 个 宛 长 的 推导 生成 了 最 后 等 式 中 的 两 项 ， 一 个 是 常数 ， 另 一 个 是 依赖 参数 。 
因为 我 们 的 目的 是 最 大 化 这 个 表达 式 ， 所 以 不 失 一 般 性 ， 我 们 可 以 忽略 常数 项 。 
同时 由 于 对 于 大 多 数 数值 计算 程序 包 ， 最 小 化 表达 式 要 比 最 大 化 简单 。 所 以 我 们 
取 表达 式 的 负 值 : 

























































































NIKO) =3 D0 0B" XY 








我 们 再 次 看 到 著名 的 结果 : 线性 回归 模型 的 最 大 似 然 估计 就 是 最 小 化 平方 
误差 ! 

为 了 找到 答案 ， 我 们 需要 做 一 些 线性 代数 的 工作 。 首 先 ， 我 们 把 表达 式 写 成 
和 矩阵 的 形式 ， 以 便 计 算 更 简单 : 






































NLL(0)=7 XB) XB) 

















这 里 , 开 是 设计 符 阵 ， 即 所 有 数据 集 的 和 矩阵。 矩阵 的 每 一 行 上 是 一 个 向 量 
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(x .oxy )。 这 种 形式 非常 方便 ， 我 们 可 以 在 标量 乘积 内 部 处 理 求 和 。 
展开 表达 式 ， 我 们 有 : 














NLL(O)=3 B" XT XB > 7 yI XB- BTXTy) 


这 个 表达 式 可 以 再 次 简化 。 实 际 上 ， 我 们 只 对 依赖 参数 的 项 感 兴 趣 。 其 他 的 都 可 
以 丢掉 。 而 且 ， 我 们 知道 ye R”"，pB”X 7 eR”， 所 有 我 们 可 以 写 出 y XBp= PB XY?y, 
这 样 可 以 帮助 我 们 简化 表达 ， 最 终 得 到 : 




















NLL(0)= - BX'XB-PB'X'y 

















凸 函数 的 最 小 值 在 〈 雅 克 比 矩阵 的 ) 一 阶 微分 为 0 的 时 候 出 现 。 因 此 我 们 可 
以 推导 得 出 : 








王 
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(VRID 





ONLL(O) 
0 


P=(XTX) XTy 

















这 就 是 R 语言 和 大 部 分 数值 计算 程序 包 中 函数 Im () 计算 的 内 容 。 然 而 ， 我 
们 建议 读者 不 要 直接 使 用 函数 ， 特 别 是 数据 集 很 大 的 时 候 。 事 实 上 ， 操 作 大 型 矩 
阵 可 能 导致 数值 的 不 稳定 性 ， 进 而 难以 控制 。 


人 题 会 在 参数 不 稳定 的 时 候 产 生 。 一 小 点 变动 都 有 可 能 对 
参数 产生 巨大 的 影响 。 这 可 能 是 由 于 参数 间 的 共 线 性 ， 参 数 之 间 互 相 掩盖 ， 或 许 
多 其 他 原因 导致 的 。 
解决 这 个 问题 的 方法 是 收缩 技术 ， 其 目的 是 约束 参数 不 要 增长 得 太 快 。 这 


通常 可 以 保证 模型 有 更 好 的 预测 能 个 简单 的 方法 是 给 参数 添加 先 验 高 斯 分 
布 。 这 也 叫 作 岭 回 归 (Ridge ee 或 L2 惩罚 〈L2 Penalization)。 

































































































































































实际 情况 下 ， 我 们 假设 参数 的 先 验 分 布 如 下 : 
p(B)=| LNGilo7) 
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这 里 ，z 控 制 收缩 的 幅度 ， 高 斯 分 布 是 0 中 心 的 。 我 们 不 希望 参数 离 0 太 远 。 
此 ， 优 化 问题 变 成 : 























| 


N D 
argmaxg logN(y,| Bo + BTx,o0”)+ 六 A logN(B,l0,7”) 














简单 地 说 ， 我 们 直接 给 出 了 结论 ， 因 为 计算 和 之 前 的 推导 类 似 。 负 对 数 似 然 





























NLLO) = 0X BY (yxX"B) + A Bl 
G? 
唯一 的 不 同 是 最 后 一 项 : 4 = 二 控制 生 罚 的 力度 。 这 个 项 越 大 ， 参 数 的 增长 
受 惩罚 越 多 。 合 适 的 惩罚 力度 可 以 保证 一 些 参数 接近 于 零 。 在 这 种 情况 下 ， 不 使 
| 这些 参数 再 次 拟 合 模型 不 失 为 一 个 好 的 方案 。 某 种 意义 上 讲 ， 这 也 是 变量 选取 
的 方法 。 较 大 的 t+ 会 降低 4。 这 也 符合 直觉 ， 如 果 参 数 的 先 验 具有 较 大 的 方差 ， 那 
么 取 值 范围 也 会 很 大 。 相 反 ， 如 果 方 差 很 小 ， 较 小 的 取 值 范围 才 有 较 大 的 概率 。 


优化 问题 的 解 就 是 













































































biage (7p 十 XTy 











我 们 再 次 建议 不 要 在 R 中 直接 计算 这 个 等 式 ， 而 是 使 用 一 些 程序 包 ， 它 们 
专门 为 数值 稳定 性 做 了 优化 。 我 们 推荐 两 个 程序 包 : 


加 MASS， 包 含 函数 lm.ridge ()， 类 似 于 lm( 
国 glmnet， 包 含 函 ee 


第 二 个 程序 包 实 现 了 多 个 算法 。 你 可 以 使 用 岭 回 归 ， 也 可 以 使 用 LI1 惩罚 
(Lasso)。 在 L1 惩 加 中 ， 我 们 不 使 用 高 斯 先 验 ， 而 是 用 拉 普 拉 斯 先 验 。 拉 普 拉 斯 
人 心 存 在 峰值 ， 这 有 特殊 的 作用 : 具有 共 线 性 的 参数 会 取 值 为 0。 这 样 ， 

这 些 参 数 就 完全 从 模型 中 消失 了 。 这 也 是 非常 有 用 的 变量 选取 方法 ， 但 是 ， 问 题 
并 不 总 是 有 解析 解 ， 我 们 需要 专门 的 优化 来 找到 答案 。 


我 们 可 以 在 R 中 使 用 lm() 和 glmnet () 拟 合 模型 ， 其 中 数据 集 为 R 环境 
中 己 有 的 mtcars。 我 们 希望 使 用 其 他 变量 回归 mpg : 





















































































































































































































































第 6 章 ” 贝 叶 斯 建 模 一 一 线性 模型 


ml <-lm( mpg ~. , mtcars) 
ml 
Call: 
lm(formula = mpg ~., data = mtcars) 
Coefficients: 
(Intercept) Cy ola hp 
wt 
L2530337 -0.11144 0501334 -0.02148 
三 人 7 业 人 3 站 
qsec vs am gear 
0.82104 Qa3177€ 2.52023 0Q.:65541 








我 们 可 以 画 出 模型 ， 看 看 理论 回归 曲线 : 























drat 


全 志 


carb 
=0;19942 


yhat <-(as.matrix(mtcars[2:10]) %*%ml$coefficients[2:10]+ml$coefficients[1] 





注意 我 们 使 用 标量 乘法 $*% : 
plot(sort (mtcarsSmpg)) 1Lines(sozt(yhat)，col =2) 


如 图 6-2 所 示 。 








sort (mtcars$mpg) 














6.2 贝 叶 斯 线性 模型 


在 这 一 节 中 ， 我 们 会 使 用 贝 叶 斯 范式 扩展 标准 的 线性 
的 是 给 出 模型 参数 d 的 先 验 知识 ， 解 决 过 拟 合 问题 。 


















































回归 模型 。 其 








中 一 个 目 





6.2.1 模型 过 拟 合 
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构建 线性 模型 时 使 用 贝 叶 斯 的 一 个 明显 的 好 处 是 可 以 很 好 地 控制 参数 。 让 我 








Tt 


们 先 做 一 个 试验 ， 看 看 参数 完全 不 可 控 会 怎么 村 


























我 们 会 使 用 R 生成 一 个 简单 的 模型 ， 看 看 参数 在 线 怕 














合 情 况 。 








让 我 们 随机 生成 10 个 数据 点 ， 画 出 它们 ， 如 图 6-3 所 示 。 


N <-30 

x <-runif (N, -2, 2) 

X <-cbind(rep(1, N), x, x’2, x’^3, x’4, x’5, 
matplot(X; 七 ="]") 








Ed i 











然后 生成 下 列 模型 的 依赖 变量 : 


y=Xp+e 


























这 里 ，e 是 方差 为 o 的 高 斯 噪声 。 我 们 使 用 
6-4 所 示 。 因 为 我 们 是 随机 生成 的 数据 ， 读 者 的 图 








sigma <-10 

eps <-rnorm(N, mean =0, sd = sigma) 
y <-X S$*%true beta teps 

plot(y, t ='1') 


下列 R 代码 ， 画 出 变量 >， 如 








形 有 可 能 和 书 中 的 不 同 : 


模型 标准 方法 下 的 拟 
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图 6-4 














然后 ， 我 们 使 用 函数 lm () 估计 模型 的 系数 : 


model <-l]m(y ~., data =data.frame (x[, 2:ncol (x)])) 





beta hat <-model$coefficients 


我 们 画 出 真正 的 系数 和 估计 的 系数 ， 如 图 6-5 所 示 。 结 果 并 不 好 ! 








beta_hat 











Index 


图 6-5 

















如 果 我 们 仔细 看 一 下 参数 值 ， 我 们 可 以 明显 发 现 ， 当 真实 模型 的 系数 为 0 时 模 
型 试图 使 用 所 有 的 变量 。 而 且 ， 模 型 试图 补偿 所 有 的 变量 ， 因 为 参数 向 量 包 含 正 值 
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和 人 负 值 。 结 果 可 能 有 些许 不 同 ， 因 为 我 们 使 用 随机 数据 ， 但 是 行为 都 是 类 似 的 : 




















>true beta 
[Ll 20 = 0 O00t0 
>beta hat 
(Intercept) xX 可 2 3 V4 村 二 
V6 V7 V8 
10s012121 =30:09122 8904295 20O0SLI7I9 lI2 IT3125 =28.102293 


6.844616 4.410177 -1.154756 
事实 上 ， 大 部 分 值 都 是 错误 的 。 这 是 过 拟 合 的 典型 例子 。 模 型 试图 完美 拟 合 
数据 ， 然 而 最 终 却 事与愿违 : 




















>true beta 

于 宇和 

>beta hat 

(Intercept) x V2 V3 V4 V5 V6 V7 V8 

O012121、 =30wu091272 .G904295: 62005179 =125913125. =28.102293 
6.844616 4.410177 -1.154756 


在 这 个 例子 中 ， 我 们 已 经 提前 知道 取 值 。 但 是 在 实际 问题 中 ， 我 们 需要 在 数 
据 集 上 拟 合 模型 ， 找 出 参数 的 合适 取 值 。 正 如 我 们 在 之 前 的 章节 中 看 到 的 ， 一 个 
方法 是 正则 化 ， 它 相当 于 给 参数 设置 先 验 分 布 。 通 过 这 个 手段 ， 我 们 可 以 一 定 程 
度 地 约束 参数 符 在 一 个 可 以 接受 的 高 概率 的 取 值 范 围 中 。 





































































































6.2.2 ”线性 模型 的 图 模型 
继续 探讨 之 前 ， 我 们 需要 可 视 化 模型 的 结构 ， 更 好 地 理解 变量 之 间 的 关系 。 
我 们 可 以 把 它 表 示 成 一 个 概率 图 模型 。 


线性 模型 捕捉 了 可 观测 变量 x 与 目标 变量 了 之 间 的 关系 。 这 个 关系 通过 几 个 
参数 集合 0 建 模 出 来 。 注 意 每 一 个 数据 点 的 y 分 布 通过 i 索引 : 



































i ~ N(X,B,o’) 


这 里 ， 是 行 向 量 ， 其 中 第 一 个 元 素 是 1， 用 以 刻画 线性 模型 的 截 距 。 如 果 
回顾 一 下 本 章 的 开始 ， 读 者 可 以 发 现 线性 模型 可 以 写成 多 个 等 价 的 形式 。 我 们 奸 
议 读者 练习 证 明 这 些 形式 都 是 等 价 的 。 例 如 ， 马 可 以 是 列 向 量 等 。 


我 们 的 第 一 个 图 模型 如 图 6-6 所 示 。 
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一 个 


图 6-6 


截 距 ， 关 每 个 成 分 的 系数 6， 以 及 yy 分 布 的 方差 o 构成 。 
图 模型 版 本 ， 如 图 6-7 所 示 。 它 清 









































参数 0 本 刁 | 
所 以 ， 根 据 这 样 的 分 解 ， 我 们 得 到 第 二 个 


楚 地 分 解 了 9 的 成 分 : 


GO 


图 6-7 


























模型 中 的 平板 表示 法 。 当 和 矩形 包 右 一 些 节 点 ， 并 在 角落 
图 形 重复 很 多 次 。 














我 们 再 次 使 用 概率 图 
中 标记 数字 或 变量 〈 例 如 NW) ， 它 的 意思 是 同一 个 











线性 模型 的 似 然 函数 是 : 
LO)=T[_ pol 和 po) 


图 形 ， 我 们 得 到 








图 6-8 所 示 的 图 模型 。 











图 模型 表示 ， 基 于 之 前 的 








这 个 形式 可 以 用 


bP 依赖 于 一 个 x。 很 明显 ， 参数 {pp 0}， 








在 此 图 中 ， 我 们 可 以 说 每 一 个 yy 者 
于 在 矩形 外 ， 因 此 是 共享 的 。 
为 了 简单 起 见 ， 我 们 会 把 8 保存 为 向 量 ， 但 是 读者 也 可 以 把 它 分 解 成 单 变 








且 
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成 分 ， 使 用 平板 表示 法 ， 如 图 6-9 所 示 。 





























在 图 模型 的 最 后 两 步 迭 代 中 ， 我 们 看 到 参数 有 一 个 先 验 分 布 ， 而 不 是 固定 
数值 。 事 实 上 ， 参 数 o 也 可 以 当 作 一 个 随机 变量 。 而 我 们 暂时 固定 这 个 值 。 














6.2.3 ”后 验 分 布 




















许多 先 验 分 布 可 以 用 来 刻画 1， 但 是 需要 易于 操作 或 者 在 线 











ee 





如 




















回归 模型 的 问 


题 中 有 恰当 的 含义 。 这 里 我 们 需要 一 个 平均 值 为 0、 对 称 的、 支持 输入 域 为 无 穷 








的 分 布 。 原 因 如 下 : 





国 平均 值 为 0， 是 因为 我 们 希望 参数 尽 可 能 在 0 附近 ， 这 是 收缩 的 作用 。 


























并 不 知道 参数 会 在 哪个 方向 取 值 。 








因此 我 们 可 以 给 以 0 为 中 心 的 值 最 大 的 概率 。 
加 对 称 ， 是 因为 我 人 








] 希 望 正 值 和 负 值 的 机 会 均等 。 一 个 先 验 知识 是 ， 我 们 























国 无 穷 输 入 ， 和 是 因为 我 们 不 希望 参数 无 法 取 到 某 些 值 。 很 明显 ， 尽 管 支 持 








无 穷 输 入 ， 但 是 1 


于 靠近 中 心 的 值 拥 有 较 高 的 概率 ， 分 布 的 






































尾部 





有 的 





概率 较 小 。 我 们 可 以 尝试 像 之 前 的 例子 一 样 ， 限 制 模型 不 取 过 大 的 值 。 


国 分 布 需要 足够 简单 ， 以 便 我 们 可 以 计算 参数 的 后 验 分 布 和 y 的 预测 。 
基于 上 述 考 虑 ， 高 斯 分 布 似乎 是 一 个 合适 的 方案 。 








上 的 条 件 概 率 如 下 : 








p(y Bo )= N(y| XB ,0 ) 


B=(XTX) XTy 





方差 的 估计 如 下 可 


以 练习 证 明 一 下 ): 


回顾 一 下 之 前 的 最 大 似 然 估计 (Maximum Likelihood Estimator，MLE ) 
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| N ST i 2 
5 全) 



































知道 高 斯 先 验 的 好 处 是 它 是 似 然 函数 的 共 辆 表示 。 这 意味 着 参数 的 后 验 分 布 


也 是 一 个 高 斯 分 布 ， 使 得 : 


p(BlyX or)x p(y|BXor) p(B |7)=N(B |m,sS) 


























[i 
旺 


m =0 SX’y 


S=(tT+0o XX) 











我 们 再 次 看 到 ， 控 制 先 验 分 布 规模 的 参数 t。 这 和 上 一 节 中 岭 回 归 中 的 + 是 
一 样 的 。 事 实 上 ， 可 以 看 到 给 出 参数 6 的 高 斯 先 验 与 岭 回归 是 等 价 的 。 读 者 可 以 
前 两 个 公式 计算 岭 回归 ， 看 看 二 者 的 关系 。 


最 后 一 步 是 我 们 需要 计算 后 验 预 测 分 布 。 后 验 预测 分 布 是 未 知 变量 了 在 观察 
测 到 一 些 X 值 后 的 分 布 。 这 其 实 是 一 个 根据 之 前 学 习 到 的 模型 ， 进 行 预测 的 工作 。 

这 项 工作 很 重要 ， 是 因为 我 们 要 完成 一 个 完整 的 贝 叶 斯 推断 流程 ， 而 不 仅仅 
是 统计 计算 。 在 标准 的 线性 模型 中 ，X 和 8 的 标量 乘积 已 经 足够 支持 对 y 值 的 预测 。 

或 者 说 ， 找 出 参数 8 后 ， 我 们 只 需要 : 

yj = be 

但 是 ， 因 为 我 们 已 经 有 了 一 个 完整 的 贝 叶 斯 模型 ,我 们 不仅 有 yy 的 期 望 ， 还 
有 完整 的 概率 分 布 。 正 如 我 们 马上 看 到 的 ， 后 验 分 布 也 是 一 个 高 斯 分 布 ， 而 高 斯 
分 布 可 以 通过 平均 值 和 方差 定义 。 所 以 ， 使 用 完全 贝 叶 斯 模型 ， 我 们 也 可 以 计算 
后 验方 差 ， 并 对 预测 的 未 知性 进行 估计 : 




























































































































































































































































































p(y' |yro°X)= jp |Bo )pB lyro MB= NO Im X' ,6 (X') 

















这 里 : 
O°(X")=0° +XSX' 
XX' 是 新 观察 到 的 数据 ， 可 以 用 来 预测 y'。 
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最 后 ， 我 们 可 以 画 出 线性 模型 完全 贝 叶 斯 解释 的 图 模型 ， 如 图 6-10 所 示 。 
































事实 上 ， 我 们 只 给 出 了 8 时 高 斯 分 布 时 的 例子 ， 但 是 例如 拉 普 拉 斯 分 布 等 其 他 分 
布 也 是 类 似 的 。 这 可 以 产生 L1 惩罚 的 效果 ， 其 没有 解析 的 形式 。 但 是 ， 一 个 有 效 的 
算法 ，Lasso 回归 ， 可 以 用 来 找到 参数 。 我 们 可 以 使 用 程序 包 glmnet 来 快速 实现 。 


























6.2.4 ”RR 语言 实现 
让 我 们 再 回 到 本 章 开始 时 的 例子 。 当 我 们 尝试 计算 参数 的 时 候 ， 我 们 发 现 了 
严重 偏离 实际 的 数值 ， 这 说 明 在 估计 过 程 中 存在 问题 。 这 个 问题 叫 作 过 拟 合 。 


然后 我 们 通过 线性 模型 的 贝 叶 斯 框架 找到 了 解决 方案 ， 计 算 了 问题 的 答案 。 
当 参 数 是 高 斯 分 布 时 ， 代 码 实现 起 来 很 简单 












































dimension <-length (true beta) 
lambda <-diag(0.1, dimension, dimension) 
posterior sigma <-sigma^2 *solve(t(X) %*%X +Sigma^2 *]lambda) 


posterior beta <-sigma^(-2) *as.vector(posterior sigma %*%(t(X) %*%y)) 
今 会 狐 亦 成 
后 验 参 数 变 成 : 


Posterior beta 

[Ll 05978 了 0505509725 ls18834799 2572321814 0%.16637478 
2..69.759764 

[Xl =a0810993147 =0531961733. 0502273269 


这 个 结果 比 之 前 的 好 多 了 。 但 是 依然 不 完美 。 真 正 的 B 是 : 

true. beta <=€(10, =3; 0 8; Qi 0 0 VO 0) 

我 们 看 到 第 二 个 参数 太 小 ， 其 他 的 参数 又 太 大 。 它 们 的 值 在 1 和 2 之 间 ， 而 
实际 应 该 为 0。 


其 实 ， 变 量 1ambqa 表示 的 惩罚 太 弱 了 。 这 说 明 方差 太 大 。 因 为 我 们 可 以 给 
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予 更 多 的 惩 避 : 


lambda <-0.5 *dqiag(0.1，dimension，dqimension) 
然后 计算 结 


posterior beta 


[il S6677088. =07393309 1:1248994 3.5526708 =0,1869873 2..8805658 
-0.3506464 


[8] =04582813 0.1190531 
结果 还 是 不 完美 ， 但 是 截 距 已 经 接近 10 (9.66)， 第 二 个 参数 也 比 之 前 好 。 其 
他 参数 还 不 够 好 ， 但 是 优化 方向 是 对 的 。 


我 们 可 以 给 予 更 多 的 惩罚 ， 并 运行 之 前 的 代码 : 























TI 


























lambda <-0.1*dqiag(0.1，dqimension，dqimension) 

posterior sigma <-sSigma^2 *solve(t(X) %*%X +Sigma^2 *1armbda) 

posterior beta <-sigma^(-2) *as.vector(posterior sigma %*%(t(xX) %*%y)) 
posterior beta 

[L111 1120750175 =3.8736938 0.6105363 8.0942494 一 二 959572: 13938047 
-0.1099443 

[8] =0.3496412 0.1280143 


尽管 不 够 完美 ， 但 是 结果 已 经 很 靠近 真正 的 答案 。 我 们 使 用 的 这 个 例子 其 实 
并 不 容易 求解 。 尽 管 如 此 ， 贝 叶 斯 框架 还 是 可 以 收敛 到 真正 的 答案 ， 而 简单 的 线 
性 回归 却 是 完全 错误 的 。 












































执行 完 模 型 计算 ， 我 们 可 以 画 出 图 形 ， 代 码 如 下 : 


t <-seq(-2, 2, 0.01) 
下 <=Cbind'(rep(l, N); t; te2; te*3; td; ts5 七 AD tAT, tA8) 














plot (x, y, xlim =c(-2, 2), ylim =range(y, T %*%true beta)) 
lines(t, T %*%true beta, col ="black", lwd =3) 

lines(t, T %*%beta hat, col ="blue", lwd =3) 

lines(t, T %*%posterior beta col ="red", lwd =3) 


legend ("topleft", cl("True function", "OLS estimate", "Bayesian 

estimate"), Col =e("black", "blue", red"), lwd =3) 

前 两 行 代码 生成 平均 分 割 的 数据 点 。 第 一 个 图 形 画 
然后 我 们 在 上 边 添 加 3 条 曲线 : 


国 黑色 曲线 : R 程序 定义 的 真正 的 模型 。 
国 蓝 色 曲线 : 这 是 OLS 估计 “标准 线性 回归 ) 。 























8 数据 集 〈 小 黑 圆 圈 )。 








Ei 
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国 红色 曲线 : 这 是 带 有 之 前 惩罚 策略 的 贝 叶 斯 估计 。 


蓝 色 曲线 (标准 线性 回归 ) 试图 经 过 所 有 的 数据 点 ， 却 拟 合 了 更 多 噪音 而 偏 
离 真正 的 函数 。 这 是 过 拟 合 的 典型 例子 。 


相反 ， 红 色 曲 线 〈( 贝 叶 斯 估计 ) 在 找 出 真正 函数 的 过 程 中 表现 良好 ， 如 图 6-11 
所 示 。 





















































”| 一 真正 的 函数 
一 标准 线性 回归 估计 
多 二 一 贝 叶 斯 估计 



































现在 我 们 想 给 这 个 图 形 添加 95% 的 后 验 预 测 区 间 。 得 益 于 贝 叶 斯 术 
们 可 以 轻松 地 算出 这 个 区 间 。 因 此 R 代码 如 下 : 








[HH 


架 ， 我 








pred sigma <-sqrt(sigma^2 +tapply((T $*#*%gPOosterior sigma) *T, MARGIN =1, 
EUN = sum)) 

upper bound <-T S$*%posterior beta +qnorm(0.95) *pred sigma 

lower bound <-T %*%posterior beta -qnorm(0.95) *pred sigma 


上 述 代码 根据 数据 集 计 算出 上 下 边界 。 最 终 我 们 用 下 面 的 代码 画 出 图 形 ， 如 
图 6-12 所 示 。 




















Plot(c(0, 0), xlim =c(-2, 2), ylim =range(y, lower bound，upper 
bound), col ="white") 

polygon (c(t, rev(t)), cl(upper bound, rev(lower bound)), col ="grey", 
border =NA) 

points (x, y) 

lines(t, T %*%true beta, col ="pblack", lwd =3) 
lines(t, T %*%beta hat, col ="pblue", lwd =3) 
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lines(t, T %*%posterior beta, col ="red", lwd =3) 


legend ("topleft", cl("True function", "OLS estimate", "Bayesian 
2: "blue", "red"),; 1585Q =3) 


estimate"), col =c ("black" 








.| 一 真正 的 函数 
二 | 一 标准 线性 回 
一 贝 叶 斯 估计 





归 估 计 








人 全 二 大 





























在 这 份 代码 中 ， 我 们 使 用 polygon 函数 画 出 表示 95% 预测 区 间 的 灰色 区 域 。 
我 们 使 用 qnorm 函数 计算 数值 ， 读 者 可 以 使 用 这 些 值 改变 区 间 。 








6.2.5 一 种 稳定 的 实现 



































在 之 前 的 实现 中 ， 我 们 使 用 R 语言 中 的 solve () 函数 。 但 是 对 矩阵 求 逆 3 
非 总 是 可 取 的 方法 ， 因 为 这 可 能 








逆 和 矩阵 的 代码 ， 还 有 计算 随机 甜 
































引起 数值 不 稳定 。 简 单 的 例子 有 ， 一 段 生 成 不 可 





阵 与 











自身 逆 的 乘积 和 单位 矩阵 的 Froebenius 距离 。 














如 果 杂 是 一 个 矩阵 ，M 是 它 的 道 ， 那 么 M : M =7。 从 数据 计算 的 角度 讲 ， 我 们 























会 看 到 ， 并 非 一 直 如 此 。 


N <-200 








result <-data.frame (i=numeric (N) ,Er=numeric(N) ) 


fort{i 1in 2:M) 
} 


x <-matrix (runif (i*i,1,100) 


9 


y <-t (x) $*%x 


I <-y%*%solve (y) 
I0 <-diag (i) 


Ey) 
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fr <-sqrt(suml(diag( (I-I0)®%*%t (I-I0)))) 
result$i[i] <-i 
result$fr[i]<-fr 

} 


这 个 代码 生成 了 一 些 方 阵 ， 维 度 从 2X2 到 200X200， 并 计算 由 随机 算 阵 与 
自身 逆 的 乘积 得 到 的 单位 矩阵 与 完美 单位 矩阵 的 Froebenius 距离 。 画 出 的 图 形 表 
明 ， 上 距离 并 不 总 是 0， 如 图 6-13 所 示 。 


















































result$fr 
| | | 1 











0e+00 le-07 2e-07 3e-07 4e-07 5e-07 6e-07 


T T 
100 150 200 
result$i 


a 
内 
oo 





图 6-13 














事实 上 ， 不 稳定 性 随 着 矩阵 规模 的 增 大 而 增 大 。 错 误 也 会 累积 。 如 果 我 们 画 
出 距离 的 对 数值 ， 我 们 可 以 明显 地 看 到 误差 逐渐 变 大 ， 如 图 6-14 所 示 。 











n 


“20 


log (result$fr) 
-3 


=30 











T T T T T 
0 50 100 150 200 
result$i 


图 6-14 
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如 果 二 者 都 是 完美 的 单位 矩阵 ， 距 离 应 该 是 零 ， 距 离 对 数 应 该 是 无 穷 大 。 所 
以 这 个 简单 例子 告诉 我 们 ， 在 贝 叶 斯 线性 回归 中 ， 对 和 矩阵 也 求 逆 可 能 会 有 问题 。 
我 们 需要 更 好 的 算法 。 


这 里 我 们 给 出 一 个 简单 的 算法 ， 解 决 岭 回 归 问 题 中 的 数值 稳定 性 问题 。 其 主 
要 思想 是 把 矩阵 求 逆转 换 为 更 简单 的 问题 ， 其 中 要 求 逆 的 矩阵 是 三 角 阵 。 

如 果 关 是 包含 数据 点 的 矩阵 ，y 是 包含 目标 变量 的 向 量 ， 我 们 首先 对 矩阵 和 
向 量 做 如 下 扩展 : 




























































































然后 ， 对 了 做 QR 分 解 ， 最 后 计算 R 的 逆 。 这 个 过 程 要 简单 些 ， 因 为 它 是 上 
三 角 和 矩阵 。 最 终 ， 线 性 回归 的 系数 如 下 : 














入 


B=R QO; 








R 语言 算法 的 实现 如 下 : 


# the numerically stable function 

ridge <-function(X, y, lambda) 

{ 
tau <-sqrt (lambda) 
Xhat <-rbind(x, (l/tau) *diag (ncol (X) ) ) 
yhat <-c(y, rep(0, ncol (xXx))) 


aqr <-qr (Xhat) 
q <-qr.Q(aqr) 
r <-qr.R(aqr) 


beta <-solve(r) %*%t(q) %*%$yhat 


return (beta) 








这 个 算法 返回 系数 向 量 ， 其 中 第 一 个 值 是 截 距 。 我 们 假设 矩阵 工 的 左边 第 一 
列 都 是 1。 我 们 使 用 qr () 函数 做 QR 分 解 。 
下 列 代码 运行 了 一 个 例子 : 


set.seed (300) 
N <-100 
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# generate some data 

x <-runif (N, -2, 2) 

Et <=e (10 =2. 2 =. 0， 之 二 ;07 

XxX <=Cbind(rep(1, length(x)), Xi; 二 27 让 437 X*4, X*D, KC6, 7, 8) 


y <-X g#g%beta +rnorm(N, 0, 4 














) 
首先 ， 我 们 生成 随机 数据 。 读 者 可 能 会 注意 到 我 们 在 开始 的 时 候 设 置 了 随 




















机 种 子 ， 以 便 后 续 结 果 可 以 准确 重 现 。 这 样 做 的 原因 就 在 于 我 们 希望 展示 岭 回 归 











的 行为 。 





代码 生成 了 x 轴 上 的 随机 数字 ， 然 后 我 们 给 出 真正 的 beta 系数 ， 最 后 生成 





随机 数据 。 
我 们 也 可 以 给 目标 数据 y 添加 高 斯 噪声 ， 来 测试 岭 回归 相对 于 标准 线性 








回归 








OLS 的 能 














希望 线性 回归 可 以 给 那些 未 用 到 的 列 很 小 的 系数 〈 甚 至 零 系 数 )。 
然后 我 们 运行 下 列 代码 ， 生 成 结果 并 画 出 图 形 : 


# plot the results 





























t <=869{=2 2 Qi01) 
Xt <=Cbind(rep(1, length(t})), t, t*2, t*3, t*4, t*5, t*6, t*7, t°8) 


yt <-Xt %*%beta 
yridge <-Xt %*%ridge (Xx, y, 0.9) 


plot (x, y) 
lines(t, yt, 七 ="]1", lwd =2, lty =2) 
lines(t, yridge, col =2, lwd =2) 


olsbeta <-lm(y ~X -1) 
olsy <-Xt %$*%olsbeta$coefficients 
lines(t, olsy, col =3, lwd =2) 





首先 我 们 生成 x 轴 上 的 随机 数 序列 ， 然 后 计算 和 矩阵 卫 和 真正 的 函数 yt。 





是 没有 噪声 的 理论 模型 。 








和 矩阵 并 有 许多 列 ， 但 是 只 有 其 中 的 4 列 《〈 以 及 截 距 ) 用 来 生成 yY 所 以 我 们 


yy 


这 


接着 是 使 用 之 前 定义 的 新 函数 ridge 计算 岭 回归 系数 。 最 后 ， 我 们 算出 标 

















准 的 OLS 线性 回归 方案 。 我 们 画 出 这 个 结果 ， 如 图 6-15 所 示 。 
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DS 















































这 个 图 中 的 真实 数据 集 用 小 圆圈 表示 。 黑 色 虚 线 是 真正 的 函数 ， 人 
所 谓 的 理论 模型 。 这 是 没有 噪声 的 模型 。 红 色 曲 线 非常 接近 真实 函数 ， 这 是 岭 回 
归 。 由 于 岭 回归 的 收缩 作用 ， 曲 线 对 噪声 不 敏感 ， 因 而 给 出 更 好 的 结果 。 

但 是 ， 绿 色 曲 线 是 标准 的 OLS 函数 。 由 于 它 对 噪声 很 敏感 ， 因 此 曲线 摆动 
的 幅度 较 大 。 这 是 过 拟 合 图 形 展示 。 在 这 个 例子 中 ，OLS 试图 经 过 每 一 个 点 ， 而 

不 能 靠近 真实 的 数据 。 最 终 得 到 一 个 没有 岭 回 归 稳 定 的 答案 。 

为 了 再 解释 一 下 最 后 一 点 ， 我 们 扩大 噪声 的 影响 ， 再 次 运行 模型 。 我 们 把 标 

准 差 从 4 改 为 16， 增 大 噪声 的 影响 ， 如 图 6-16 所 示 。 


二 | 











































































































2 本 0 1 2 
图 6-16 


很 明显 ， 这 是 一 个 极端 的 例子 ， 我 们 再 次 看 到 岭 回 归还 是 离 真正 的 函数 很 
近 。 而 OLS 函数 变 得 非常 不 稳定 ， 过 拟 合 很 严重 。 




















6.2.6 更 多 R 语言 程序 包 


贝 叶 斯 线性 回 
模型 。 当 然 ， 我 们 





二 者 的 惩罚 。 


另 一 个 程序 包 是 bayesm， 它 包括 线 

















probit， 高 斯 混合 





模型 ， 以 及 狄 利克 雷 过 程 先 验 密度 估计 。 


归 是 R 语言 
之 前 提 到 了 glmnet， 它 实现 了 岭 
同时 实现 两 者 的 混合 模型 ， 叫 作 弹 性 网 络 (Elastic Net)。 蚤 
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六 














EFE 回 归 和 多 变 元 





I 





6.3 小 结 


FPF 深 入 讨论 的 话题 。 许 多 程序 包 都 可 以 实现 这 个 
回归 和 Lasso 回归 ， 也 可 以 

















性 网 络 可 以 同时 使 用 














回归 ， 多 项 式 logit 和 











我 们 也 推荐 arm 程序 包 ， 它 提供 了 glm() 和 polr() 的 贝 叶 斯 版 本 ， 实 现 
了 层次 模型 。 它 也 是 一 个 强大 的 程序 包 。 


当然 ， 我 们 不 应 该 止步 于 此 ， 应 该 继续 研究 贝 叶 斯 模型 对 各 种 算法 和 检验 分 





布 的 解释 。 从 菜 种 意义 上 




















用 蒙特 卡 洛 推 昕 ， 就 像 之 前 的 章节 解释 的 那样 。 














6.3 人 小结 


在 本 章 中 ， 我 们 看 到 了 标准 的 线性 模型 。 这 个 模型 是 统计 学 中 最 重要 的 模型 











， 找 








一 个 解析 答案 已 经 变 得 不 太 可 能 ， 我 们 应 该 使 





























之 一 。 它 给 出 了 简单 的 、 肥 加 的 方法 来 表示 观测 变量 和 目标 变量 之 间 的 关系 。 


线性 模型 的 参数 估计 




















是 ， 贝 叶 斯 方法 可 以 帮助 我 们 把 先 验 知识 考虑 ; 








可 用 的 模型 。 





























我 们 看 到 了 岭 回归 和 由 
是 等 价 的 ， 而 且 都 很 容易 计算 。 


通过 简单 的 例子 ， 我 们 看 到 标准 的 线性 





斯 方法 可 以 解决 这 个 问题 。 
在 下 一 章 中 ， 我 们 会 研究 更 加 先进 的 模型 ， 即 混合 模型 ， 来 处 理 数据 禾 。 这 些 











模型 假定 数据 是 


不 同 的 组 4 





模型 中 ， 




















叶 斯 回归 。 当 参数 




















时 会 很 困难 ， 我 们 不 应 该 立马 相信 算出 的 结果 。 但 








并 生成 一 个 更 加 稳定 和 








\ 有 高 斯 先 验 分 布 时 ， 这 两 个 方法 


回归 可 能 导致 严重 的 过 拟 合 ， 而 贝 叶 


成 的 。 其 目的 是 自动 发 现 每 个 组 ， 并 揭示 背后 的 过 程 。 

















我 们 已 经 看 到 了 一 些 混合 


的 高 斯 模型 来 表示 数据 集 。 

















我 们 会 从 高 











斯 混合 模型 开始 ， 











模型 的 例子 ， 例 如 高 斯 混合 模型 ， 它 通过 有 限 个 数 
在 这 一 章 中 ， 我 们 会 关注 更 复杂 的 混合 模型 的 例子 。 
逐渐 到 隐 狄 利克 雷 分 布 。 学 习 很 多 模型 的 原因 是 

















烛 








刻画 的 数据 的 诸多 方面 用 高 斯 混合 模型 表示 并 不 方便 。 


在 很 多 情况 下 ， 我 们 会 期 望 最 大 化 算法 找 出 模型 的 参数 。 而 且 ， 大 部 分 混合 
模型 似乎 都 无 法 轻松 找到 答案 ， 我 们 需要 近似 推断 。 














我 们 将 要 看 到 
伯 努 利 分 布 、 
布 适合 用 于 刻画 大 量 数据 点 ， 














泊 松 分 布 等 。 



































的 第 一 种 模型 是 简单 分 布 的 混合 。 简 单 分 布 可 以 是 高 斯 分 布 、 






































基本 原理 是 相同 的 ， 但 是 应 用 场景 可 能 不 同 。 高 斯 分 
伯 努 利 分 布 适 合 分 析 黑 白 图 像 ， 例 如 手写 字体 识别 。 


























我 们 会 放松 混合 模型 的 一 个 假设 ， 看 到 第 二 个 模型 ， 即 专家 混合 。 它 会 选择 
一 个 依赖 数据 点 的 聚 类 。 它 


最 后 我 们 会 看 到 非常 强大 的 模型 ， 即 隐 狄 利克 雷 分 布 (Latent Dirichlet 


Allocation, LDA )。 




















可 以 当 作 概率 决策 树 的 第 一 个 方法 。 





在 这 个 模型 中 ， 我 们 放松 了 混合 模型 的 另外 一 个 假设 。 在 混 


AU 它 可 以 同时 属于 多 个 簇 。 
这 个 模型 成 功 地 用 在 了 文本 分 析 等 工作 中 。 它 属于 混合 成 员 模 型 族 中 的 一 个 。 


我 们 会 在 本 章 中 介绍 下 





国 ;混合 





合 模型 的 一 般 介 














列 内 容 : 
， 以 及 几 个 分 布 的 示例 ; 














国 专家 混合 ， 其 中 我 人 
加 LDA， 其 中 我 们 假设 一 个 数据 点 属于 多 个 数据 艇 。 


7.1 混合 


混合 模型 是 隐 变 中 





模型 
模型 


2 





1 假设 数据 让 依 天 数据 点 ， 





一 大 类 中 的 一 个 模型 ， 其 中 的 一 些 变量 是 无 法 观 





测 到 的 。 





选 的 模型 


当 数 据 天 然 地 存在 簇 H 
找 出 子 模型 参与 数据 生成 过 程 的 程度 ， 


混合 模型 经 常 
模型 。 另 外 ， 混 合 模型 也 会 引入 模型 隐 含 
ws 假设 我 们 有 一 个 模型 集 


+ 中 生成 数据 点 。 


整个 问题 就 变 成 了 ， 


的 参数 是 什么 。 这 
F 多 方法 可 以 合并 小 模型 





有 六 








型 中 的 这 个 方法 通常 


们 要 构建 一 


其 中 ，t 是 每 个 子 模型 的 比例 。 


当然 ,At 的 和 是 1。 


斯 的 形式 扩展 。 因 此 这 个 模型 
基础 分 布 的 
类 型 的 模型 。 在 《机 器 学 习 : 
Perspective) 中 ， 下 列 分 类 可 以 帮助 我 们 至 


理论 上 讲 ， 


表 7- 








1 
名 称 


. 


通 i 


过 把 所 有 变量 








和 


了 可 




















| 村 


时 ， 每 一 个 人 都 可 





和 








个 问题 








基础 分 部 





通 





型 ， 


些 隐 含 的 信息 会 选择 其 中 一 个 模型 ， 


以 便 生成 更 大 的 或 更 原生 的 模型 。 
要 给 出 每 个 子 模型 的 比例 ， 满 足 比 例 和 为 1。 
个 如 下 的 增 量 模型 : 





以 看 作 一 个 小 模型 。 














常用 期 望 最 大 化 解决 。 


以 及 每 个 子 模型 


混合 模型 


分 到 几 个 具有 不 同 含义 的 组 中 ， 来 简化 
的 过 程 ， 即 数据 生成 的 真正 原因 。 
然后 从 已 





或 者 





























p10)= ,Aipr i |9) 


> 二 











而 且 ， 比 例 可 以 
4 叫 作 混合 模型 ， 











每 个 子 模型 都 通 


成 一 个 随机 变量 ， 而 

















可 以 通 
概率 分 布 庆 叫 作 基础 分 布 。 


























多 式 不 存在 任 
一 种 概率 视 





可 














约束 ， 而 且 根 据 函 























隐 变 量 分 布 


的 模型 ， 如 表 7-1 


备注 


数 的 不 同 ， 
点 》(Machine Learning: A Probabilistic 
E 解 许多 常见 


在 混合 模 
换 名 话说， 我 


过 概率 分 布 p; 刻画 。 


过 贝 叶 


有 几 种 


所 示 。 

















斯 混合 


模型 





高 


| 





斯 分 布 


离散 分 布 








从 天 中 选取 高 斯 模型 





概率 PCA 


斯 分 布 














折 分 布 








概率 ICA 








1 司 为 
斯 











斯 分 布 








拉 普 拉 








分 布 用 于 稀 玻 编码 





隐 狭 利克 雷 分 布 


都 很 容易 求解 。 在 许多 情况 下 ， 我 们 还 


混合 模型 有 如 下 定义 : 我 们 把 每 
每 一 个 分 布 我 们 都 有 平均 值 


例如 ， 高 斯 
基础 分 布 )， 隐 变量 分 布 是 离散 的 。 对 于 





《 








: 几 个 例子 ， 

















说 明 许 多 模型 都 基于 相同 的 思想 。 


散 分 布 











狄 利克 雷 


分 布 


不 起 要 襄 





用 于 文本 分 析 





三 
是 这 





但 




















录 而 女 [ 梧 





级 的 入 





法 。 


这 并 不 意味 着 它们 











个 子 模型 当 作 


























个 高 斯 分 布 
和 方差 。 





第 7 章 概率 混合 模型 








从 这 样 的 模型 中 采样 可 能 会 生成 下 列 数据 集 ， 如 图 7-1 所 示 。 


密度 曲线 





X.2 




















基础 密度 函数 是 : 
pxi10,2; =k)=N GC; Iu ,O04 ) 








隐 变 量 分 布 是 类 别 型 分 布 ] [= (五 …,zx )。 因 此 模型 就 是 
pi10)= DN Ge I,07) 





在 高 维 高 斯 分 布 中 ， 方 差 o* 会 替换 成 协 方差 矩阵 六/。 


7.2 混合 模型 的 期 望 最 大 化 











拟 合 混合 模型 的 标准 算法 是 期 望 最 大 化 算法 或 期 望 最 大 化 。 这 个 算法 已 经 在 
第 3 章 参 数学 习 中 重点 介绍 过 。 所 以 ， 我 们 只 回顾 一 下 算法 的 基本 思想 ， 然 后 展 














示 伯 努 利 混合 模型 。 


R 语言 中 有 一 个 不 错 的 程序 包 叫 作 mixtools 可 以 用 来 学 习 混 合 模型 。 这 
个 程序 包 的 完整 介绍 在 Journal of Statistical Software (Oct 2009, Vol 32, Issue 6) 





的 mixtools: An R Package for Analyzing Finite Mixture Models 中 。 





| 








期 望 最 大 化 算法 是 学 习 混 合 模型 的 优秀 方案 。 事 实 上 ， 在 第 3 前 参数 学 > 





7.2 混合 模型 的 期 望 最 大 化 


中 ， 我 们 看 到 在 数据 缺失 或 变量 隐藏 〈 即 所 有 相关 数据 缺失 ) 的 情况 下 ， 期 望 最 
大 化 算法 会 执行 两 步 流 程 。 首 先 ， 算 法 计算 缺失 变量 的 期 望 值 ， 以 便 保证 所 有 数 
据 似乎 都 完全 可 观测 。 算 法 会 最 大 化 目标 函数 ， 通 常 是 似 然 函 数 。 然 后 ， 给 定 新 
的 参数 集合 ， 流 程 会 再 次 迭代 ， 直 到 满足 特定 的 收敛 条 件 ， 如 图 7-2 所 示 。 
















































































在 上 图 表示 的 混合 模型 中 ， 可 以 清楚 地 看 到 变量 Z 是 隐 变 量 ， 而 % 是 可 观测 的 。 
我 们 通常 在 图 模型 中 采用 平板 表示 法 ， 给 出 数据 生成 过 程 的 综合 展示 ， 如 图 7-3 所 示 。 


"十 个 


















































图 7-3 








在 许多 概率 模型 中 ， 拟 合 参数 可 以 通过 找 出 参数 集合 的 方式 求解 。 这 些 参数 
可 以 最 大 化 生成 数据 的 概率 。 或 者 说 ， 我 们 关注 于 最 大 化 模型 的 对 数 似 然 率 : 
L(0)=[ [pl = > Dog( 2 .Peiz 19)) 
这 个 等 式 有 一 个 问题 ， 就 是 log 内 的 求 和 很 难 计算 ， 而 且 在 很 多 情况 下 无 从 
下 手 。 读 者 可 能 记得 这 个 似 然 率 是 使 用 可 观测 数据 的 形式 写 出 的 。 因 此 ， 如 果 我 
们 使 用 之 前 的 图 模型 ， 我 们 可 以 引入 隐 变 量 ， 写 出 完整 的 对 数 似 然 率 ， 如 下 : 


L.(0)= Dlogpt i2110) 
期 望 最 大 化 会 求解 计算 似 然 率 ， 其 中 = 是 完全 隐藏 的 。 步 又 如 下 : 


首先 ， 我 们 定义 完整 数据 对 数 似 然 率 期 望 值 (Expected Complete Data Log 
Likelihood): 
















































































0(0,,0, 1)= E(L.(0)|Datal, ,) 


这 个 期 望 是 根据 上 一 步 中 的 参数 计算 得 出 的 完整 数据 对 数 似 然 率 期 望 值 。 当 
然 ， 在 算法 开始 的 时 候 ， 参 数 可 以 初始 化 成 任意 数值 。 我 们 在 第 3 章 参数 学 习 中 
看 到 ， 这 个 值 可 以 是 任意 值 ， 但 是 随机 选取 数值 可 能 导致 非常 长 的 收敛 时 间 。 不 
过 ， 已 经 证 明 ， 不论 初始 值 如 何 ， 期 望 最 大 化 算法 都 可 以 收敛 。 

期 望 最 大 化 算法 中 的 E- 步骤 会 计算 期 望 值 ， 即 给 定数 据 和 之 前 参数 的 期 户 
参数 值 。M- 步骤 会 根据 新 给 定 的 参数 集 0 最 大 化 期 望 ， 求 解 问题 







































































0, = ars11000(00.0 1) 
在 程序 包 mixtools 中 ， 我 们 可 以 使 用 函数 normalmixEM 拟 合 高 斯 混合 
模型 。 过 程 如 下 。 
首先 ， 我 们 生成 两 个 单 变 元 高 斯 数据 集 : 


















































Xl1 <-rnorm(1000, -=3, 2) 
X2 <-rnorm(850, 3, 1) 


然后 ， 我 们 使 用 函数 hist 画 出 结果 ， 看 看 它们 是 如 何 经 验 分 布 的 : 


























hist(c(xl, x2), breaks =100，col ='red') 
我 们 可 以 得 到 图 7-4 所 示 的 图 形 ， 其 中 可 以 轻松 看 到 两 个 数据 秘 ， 以 及 二 者 
近似 分 布 。 由 于 使 用 随机 生成 函数 ， 读 者 的 结果 可 能 和 本 书 看 到 的 有 些许 不 同 。 


c (xlx2) 的 柱状 图 
























































Cc Cxlx2 


图 7-4 
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7.2 混合 模型 的 期 望 最 大 化 


model <-normalmixEM(c(xl1l, x2), lambda =0.5, k =2) 


这 个 模型 应 该 迭代 30 到 40 次 。 我 们 给 每 一 类 的 比例 设 为 50%， 一 共有 2 
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在 我 们 的 结果 中 ， 得 到 了 下 列 参 数 : 


国 混合 比例 是 54.9% 和 45.1%， 这 与 我 们 初始 给 出 的 xl1 和 x2 数据 集 比例 
相 吻 合 ; 

国 / 参数 是 -2.85 和 3.01， 也 与 我 们 给 出 的 初始 值 很 接近 。 

我 们 可 以 画 出 柱状 图 ， 并 徐 加 上 高 斯 分 布 曲线 ， 如 图 7-5 所 示 。 






























































hist(c(x1, x2), breaks =100, col ="red", freq = F, ylim =c(0, 0.4)) 
lines (x, dnorm(x, models$mu[1], model$sigma[1]), col ="blue") 


lines (x, dnorm(x, models$mu[2], model$sigma[2]), col ="green") 


c (x1,x2) 的 柱状 图 
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图 7-5 























结果 明显 偏离 期 望 的 比例 。 如 果 我 们 添加 比例 ， 重 新 做 图 ， 会 得 到 期 望 的 分 
如 图 7-6 所 示 。 


hist(c(xl, x2), breaks =100, &ol ="red", freg = F) 
lines (x, 

model$lambda[l1] *dnorm(x, model$mul[l1l], model$sigma[1]) +model$lambda[l2]* 
dnorm(x, model$mu[2], model$sigma[2]), 

lwd =3) 





c (x1,x2) 的 柱状 图 














图 7-6 














簇 的 数量 非常 重要 ， 选 取 不 合适 的 话 会 剧烈 改变 结果 。 例 如 ， 如 果 我 们 使 用 
下 面 的 值 ， 就 会 得 到 不 同 的 结果 : 









































model <-normalmixEM(c(xl1,x2), lambda=0.5, k=3) 
number of iterations=774 

model <-normalmixEM(c(xl1,x2), lambda=0.5, k=4) 
WARNING!NOT CONVERGENT! 

number of iterations=1000 


当 存 在 3 个 艇 时， 期 望 最 大 化 算法 依然 会 收敛 。 当 有 4 个 艇 时 ， 就 需要 增加 
和 欠 代 的 次 数 。 事 实 上 ， 即 使 有 3 个 复 ， 结 果 也 不 错 ， 绘 出 密度 函数 ， 我 们 有 图 7-7 
所 示 的 柱状 图 。 









































c (x1,x2) 的 柱状 
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7.3 伯 努 利 混合 


在 此 图 中 ， 我 看 到 第 二 个 艇 和 第 一 个 徐 靠 得 很 近 。 如 果 我 们 仔细 看 一 下 中 间 
的 黑色 粗 线 ， 会 看 到 左边 的 分 布 不 完全 是 高 斯 的 。 检 查 一 下 模型 参数 ， 我 们 看 到 
高 斯 分 布 的 平均 值 是 -3.74、-1.08 和 2.9。 中 间 的 分 布 确实 和 第 一 个 很 靠近 ， 相 
应 的 比例 是 : 38%、15.4% 和 46.5%。 因 此 ， 期 望 最 大 化 算法 好 像 是 把 最 大 的 篮 
《1 000 个 点 中 的 850 个 点 ) 分 成 了 两 个 高 斯 分 布 ， 进 而 得 到 3 个 艇 。 


收敛 速度 太 慢 有 时 可 能 说 明 我 们 的 超 参 数 不 完 全 合适 ， 应 该 研究 更 多 的 值 。 














7.3 伯 努 利 混合 

伯 努 利 混合 是 另 一 个 有 趣 的 问题 。 正 如 我 们 之 前 看 到 的 ， 这 类 模型 的 图 模型 
表示 都 是 一 样 的 。 只 有 相应 的 概率 分 布 函数 会 有 不 同 。 伯 努 利 混合 在 分 析 黑 白 图 
像 的 应 用 中 很 有 用 。 图 像 是 由 像素 的 一 个 伯 努 利 变量 构成 的 。 该 模型 的 目的 是 为 
了 给 图 像 分 类 ， 即 给 定 一 些 观察 到 的 像素 ， 确 定 隐 变 量 的 哪些 值 生成 了 图 像 。 


例如 ， 图 7-8 表示 字母 A。 
































图 7-8 


在 实际 应 用 中 ， 我 们 会 使 用 更 多 的 像素 。 但 是 主要 思想 是 把 每 个 像素 的 值 
关联 到 隐 变 量 的 每 一 个 值 上 ， 每 个 隐 变 量 都 代表 一 个 字母 。 这 是 文字 识别 的 简 
单 模型 。 

伯 努 利 变量 的 分 布 是 : 








现在 ， 


p(x|0)=0"(1-0)™ 


假设 我 们 用 个 伯 努 利 变量 ， 每 一 个 伯 努 利 变量 都 被 一 























数 化 。 因 此 这 模型 的 似 然 率 可 以 写作 : 

















D h; = 
p(X|9) =[ [9 (1-0. f° 


A (X17XD), O01,... ,0p) 


如 果 我 们 引入 所 有 变量 的 混合 ， 那 么 联合 分 布 可 以 写作 : 























pO |0m) = xxp (rl) 





























原因 是 通常 


=(X1,.…, Xp) 是 混合 参数 ， 分 布 p 是 : 


D 和 —% 
pl9)=|[ [0%0-0.)7™* 














这 其 实 就 是 之 前 的 同一 个 分 布 ， 只 是 取 一 种 情况 。 
为 了 拟 合 模型 ， 我 们 需要 找 出 对 数 似 然 率 。 它 的 表达 式 也 不 适合 直接 优化 。 











个 参数 0 参 

















情况 下 ， 我 们 引入 隐 变 量 是 为 了 考虑 观察 不 到 的 变量 ， 








期 望 最 大 化 算法 。 
对 数 似 然 率 来 自主 要 的 联合 分 布 : 


logp(x|O7) = > log( zp 12)) 

















因此 需要 使 用 








这 是 非常 标准 的 计算 对 数 似 然 率 的 形式 。 和 通常 的 混合 模型 类 似 ，log 对 数 


内 部 的 求 和 运 


现在 我 们 引入 隐 变 量 z， 


带 x 的 




















天 2 
plz|7) 本] x 


联合 分 布 如 下 : 


云 算 无 法 提出 。 所 以 我 们 得 到 一 个 非常 复杂 的 表达 式 等 
它 是 带 有 天 个 参数 的 类 别 型 分 布 ， 满 足 : 


竺 最 小 化 。 





7.3 伯 努 利 混合 


px1z0)=[ PCzleo 


和 高 斯 混合 一 样 ， 我 们 会 写 出 完整 的 对 数 似 然 率 。 这 个 似 然 率 是 在 数据 集合 
完备 的 情况 下 ， 我 们 要 优化 的 表达 式 ， 即 不 含 隐 变量 : 








N 天 D 
logp(X,2 |07)= > 2 ,zn logm + >, [zologbu + (1—x,)og (1— Oi))) 


在 这 个 (非常 长 的 ) 表达 式 中 ， 
计 和 矩阵 的 表示 法 ， 其 中 总 (或 2) 的 
个 观测 值 集合 。 
























































我 们 把 和 和 2 当 作 矩阵， 因此 可 以 使 用 设 
每 一 个 行 向 量 是 每 一 个 变量 x, (或 z,) 的 一 























于 用 贝 叶 斯 公式 ， 我 们 可 以 根据 隐 变 量 的 分 布 ， 计 算 完备 数据 集合 对 数 似 然 





率 的 期 望 。 这 一 步 是 期 望 最 大 化 算法 中 E- 步骤 必须 的 ， 我 们 需要 补 全 数据 集 : 











N 才 D 
El(logp%20n) = >, > Bzni) (ogn + > [logOes + (1—x,,)log (1-0)]) 


隐 变 量 的 期 望 值 是 : 























Elz )= 


Np (xi |01) 























某 种 意义 上 讲 ， 这 并 不 意外 。 因 











比率 ， 它 会 在 计算 完 后 验 概率 后 出 现 。 








天 
ee Rp (x 12)) 





为 最 后 我 们 需要 计算 数据 集中 每 个 子 集 z, 的 











最 后 ， 在 M- 步骤 中 ， 我 们 可 以 根据 参数 9, 和 7 推导 出 完备 数据 集合 对 数 似 
然 率 ， 并 设 为 0。 我 们 可 以 得 到 下 列 估计 : 





1 N 
0 = Bt x 
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N, 
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:入 N 
这 里 ，Ni=》 (sD 











MN 
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期 望 最 大 化 算法 会 在 计算 z 期 望 和 参数 9、 新 值 之 间 调 整 ， 直 到 收敛 。 





EWR 


和 Learning (Christopher M. Bishop, Springer, 2007) 中 找到 。 


| ” 关于 推导 的 细节 可 以 在 Pattern Recoenition and Machine 














这 个 模型 还 可 以 扩展 ， 相 同 的 思想 也 可 以 用 到 其 他 类 型 的 分 布 上 。 例 如 ， 
松 混 合 和 Gamma 混合 。 男 外 ， 伯 努 利 混合 可 以 用 同样 的 推导 扩展 到 多 项 式 情 
在 所 有 的 这 些 模 型 中 ， 我 们 认为 模型 
我 们 使 用 同一 个 模型 支持 所 
































一 个 扩展 是 认为 每 
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Lp 




















了 这 样 的 模型 。 我 们 会 简单 介绍 一 下 这 个 有 趣 的 模型 。 




















专家 混合 的 思想 使 用 原始 数据 的 每 个 子 空间 线性 回归 模型 的 集合 ， 





续 输出 模型 权重 的 权重 函数 进行 合并 。 





考虑 下 面 的 示例 数据 集 ， 具 体 生成 示例 的 代码 如 下 : 


xl1 =runif(40, 0, 10) 
x2 =runif(40, 10, 20) 


yl =1 +2.5 *#X1 +el 
y2 =35 +-1.5 *x2 +e2 


XX =C(xl, x2) 


yy =c(yl, y2) 
































画 出 结果 ， 进 行 简单 的 线性 回归 ， 如 








图 7-9 所 示 。 
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4 刻画 了 所 有 数据 点 的 空间 。 换 句 话说 ， 
分 布 作为 输入 。 

个 子 空间 都 有 自己 的 模型 ， 因 
选择 依赖 数据 点 。 在 Adaptive mixtures of local experts (Jacobs, R.A., Jordan, M.L, 
Nowlan, S.J., 和 Hinton, G.E. (1991), Neural Computation, 3, 79 ~ 87) 上 














此 隐 变 量 对 于 子 模型 的 


P ,就 提出 

















并 使 用 持 
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图 7-9 











线性 回归 明显 不 能 刻画 数据 集 的 行为 。 它 几乎 完 
数据 集合 大 致 平均 。 











专家 混合 的 思想 是 在 大 模型 中 找 出 几 个 子 模型 。 例 如 ， 找 出 多 条 回 


如 图 7-10 所 示 。 


全 不 






































在 这 个 图 中 ， 红 线 和 绿 线 似乎 可 以 更 好 地 表示 数据 集 




















何 时 选择 哪 一 条 线 。 而 且 ， 混 合 模型 可 能 是 其 中 一 个 答案 。 
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7.4 专 
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不 能 捕捉 数据 趋势 ， 只 是 














习 曲 线 ， 





马 





疏 。 但 是 ， 模 型 需要 判断 





在 这 


文 个 例子 中 ， 我 们 





第 7 章 概率 混合 模型 





希望 混合 模型 依赖 数据 点 ， 因 此 图 模型 可 能 会 有 点 不 同 : 

















pyi|x,2,0)=N 0 Iwix, ,07 ) 


这 是 线性 模型 。 然 后 我 们 使 用 下 面 的 公式 引入 隐 变 量 依赖 : 











plz; |x0)= Multlz, [SV Tx,)) 























这 里 ，S(.) 可 以 是 sigmoid 函数 。 函 数 P(z;|x0) 通 常 叫 作 门 函数 (Gating 
Function )。 








这 个 模型 的 图 模型 会 很 不 一 样 。 因 为 它 引入 隐 变 量 和 观测 值 之 间 的 依赖 ， 如 
7-11 所 示 。 














图 7-11 











通常 ， 专家 混合 模型 使 用 Softmax 门 函数 ， 满足 : 
exp(D x) 
Dexp(B'x) 
期 望 最 大 化 算法 通常 是 拟 合 模型 的 不 错 方 案 。 例 如 ， 程 序 包 mixtools 包 
含 函 数 nmeME 来 拟 合 专家 混合 。 在 撰写 此 书 的 时 候 ， 这 个 函数 还 只 能 支持 两 


个 复 。 


f(x)= 









































所 有 门 函 数 的 组 合 需 要 在 任何 一 个 数据 点 上 总 和 为 1。 例 如， 在 我 们 的 例子 
中 ， 两 个 sigmoid 函数 的 效果 如 图 7-12 所 示 。 
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图 7-12 























这 样 的 组 合 可 以 给 出 最 终 模 型 ， 更 好 理解 初始 数据 集 ， 如 图 7-13 所 示 。 
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我 们 鼓励 读者 开发 自己 的 期 望 最 大 化 算法 ， 来 拟 合 这 样 的 模型 ， 并 尝试 不 同 
的 门 函数 。 

诸如 收缩 技巧 ， 或 者 使 用 贝 叶 斯 方法 处 理 参 数 也 会 避免 过 拟 合 。 但 是 在 子 模 
型 数量 增长 太 快 时 ， 可 能 会 是 个 问题 。 






































7.5 隐 狄 利克 雷 分 布 





本 书 要 介绍 的 最 后 一 个 模型 是 隐 狄 利克 雷 分 布 (Latent Dirichlet Allocation， 








LDA)。 它 是 一 个 生成 模型 ， 可 以 用 图 模型 表示 。 














它 基 于 混合 模型 同样 的 思想 ， 


但 是 有 一 个 显著 的 不 同 。 在 这 个 模型 中 ， 我 们 假设 数据 点 可 能 通过 簇 的 组 合生 





成 ， 而 不 是 之 前 的 只 由 一 个 簇生 成 。 





隐 狄 利克 雷 分 布 模型 主要 用 在 文本 分 析 和 分 类 。 一 个 文本 文档 由 多 个 表示 


实际 意义 的 词语 和 段落 组 成 。 为 了 简化 问题 ， 我 
关于 一 个 具体 的 主题 ， 例 如 科学 、 动 物 、 体 育 等 。 
者 欧洲 足球 。 因 此 ， 这 些 词语 很 有 可 能 来 自 
词语 “体育 场 ”有 可 能 





























能 来 自主 题 猫 。 


应 该 有 很 大 概率 来 自主 题 “欧洲 足球 ” 





























也 爱 玩 球 。 因 此 ， 词 语 “ 球 ” 似 乎 同时 使 用 不 同 的 主题 ， 只 是 确定 程度 不 同 。 
其 他 词语 例如 “桌子 ”属于 两 个 主题 的 概率 应 该 相同 ， 或 者 其 
































自主 题 “ 欧 洲 足球 ”。 











门 可 以 说 每 一 个 句子 或 段落 都 是 
主题 可 以 更 加 具体 ， 例 如 猫 或 





























具体 的 主题 。 例 如 ， 词 语 “ 猫 ”有 可 








晶 是 ， 词 














， 然 而 也 3 











非 不 能 来 自主 题 “ 猫 ”因为 猎 


















































都 是 原生 的 概念 。 当 然 除非 引入 男 一 个 主题 “家 具 ”。 











他 主题 。 


语 [0 球 2 























它们 


一 个 文档 是 词语 的 集合 ， 因 此 一 个 文档 和 主题 集合 的 关系 可 能 很 复杂 。 但 








是 ， 最 终 我 们 还 是 有 可 能 发 现 一 些 词语 来 








文档 中 相同 的 主题 。 


























自 同一 个 主题 或 者 一 个 段落 ， 甚 至 一 个 


通常 ， 我 们 使 用 词 袋 (Bag-of-words) 模型 建 模 一 个 文档 。 也 就 是 说 ， 我 们 





把 文档 看 成 服从 其 体 分 布 的 随机 生成 的 词语 集合 。 


























是 完全 随机 的 ， 没 有 任何 含义 。 但 是 ， 
很 高 ， 那 么 模型 生成 的 词语 集合 就 会 





























如 果 分 布 是 均匀 分 布 ， 文 档 就 


如 果 是 其 他 的 分 布 ， 相 关 词 语 出 现 的 概率 
































真正 的 应 











7.5.1 LDA 模型 











具体 的 含义 。 当 然 ， 生 成 文档 并 不 是 我 们 
] 。 我 们 感 兴趣 的 是 文档 分 析 、 分 类 和 自动 理解 。 


设 z 是 类 别 型 变量 (或 者 说 柱状 图 变量 )， 表 示 字 典 里 所 有 词语 出 现 的 概率 。 





在 这 一 类 模型 中 ， 我 们 通常 只 关 举 





FE 长 词语 (实际 意义 的 词语 ) 上 ， 











开 移 除 短 








词语 ， 例 如 和 (and)、 到 (to)、 而 (but)、 这 (the)、 一 个 (a) 等 。 这 些 短 词 





7.5” 隐 狄 利克 雷 分 布 


叫 作 停 用 词 (Stop Words)。 
设 w 为 文档 的 第 7 个 词语 。 一 个 文档 生成 模型 可 以 表示 成 图 7-14 所 示 的 模型 。 

















图 7-14 


设 9 是 主题 上 的 分 布 ， 那 么 我 们 可 以 通过 选择 某 个 主题 ， 并 生成 一 个 词语 的 
方式 来 扩展 这 个 模型 。 
所 以 ， 变 量 z; 变 成 了 zj， 是 单词 j 属 于 在 主题 i 的 概率 。 图 模型 可 以 如 图 


7-15 所 示 进 行 扩展 。 
























































图 7-15 
我 们 可 以 进一步 扩展 模型 ， 确 定 我 们 希望 建 模 一 个 文档 集合 。 


假设 这 些 文档 都 是 独立 同 分 布 的 ， 我 们 可 以 画 出 图 模型 。 图 中 我 们 捕捉 了 M 
个 文档 (上 图 右边 部 分 )。 


由 于 9 上 的 分 布 是 类 别 型 的 ， 我 们 希望 可 以 采用 贝 叶 斯 方法 。 这 主要 是 因为 
贝 叶 斯 方法 有 助 于 建 模 〈 不 会 过 拟 合 ) ， 并 且 把 文档 主题 的 选择 看 成 随机 过 程 。 


而 且 ， 我 们 希望 使 用 相同 的 策略 ， 给 出 狄 利 死 雷 先 验 分 布 处 理 词语 变量 。 这 


















































































































































第 7 章 概率 混合 模型 








个 先 验 分 布 用 来 避免 带 有 0 概率 的 未 被 观测 的 词语 。 它 可 以 使 每 个 主题 中 的 词语 
分 布 变 得 平滑 。 一 个 均匀 的 狄 利 克 雷 先 验 分 布 会 给 出 所 有 词语 的 均匀 先 验 分 布 。 


最 终 图 模型 可 以 由 图 7-16 给 出 。 


图 7-16 


这 是 非常 复杂 的 图 模型 ， 但 是 人 们 已 经 开发 出 算法 来 拟 合 参数 ， 并 使 用 这 个 模 
型 。 所 以 ， 如 果 我 们 仔细 研究 这 个 图 模型 ， 会 得 到 基于 特定 主题 集合 的 文档 生成 过 程 : 


加 a 选择 文档 的 主题 集合 ; 

国 从 0 中 和牛 成 主题 z; 

加 从 合格 主题 中 ， 生 成 词语 w。 

在 这 个 模型 中 ， 只 有 词语 是 可 观测 到 的 。 所 有 其 他 的 变量 都 在 无 法 观测 的 情 
况 下 确定 。 这 和 其 他 混合 模型 一 样 。 所 以 ， 文 档 表示 为 隐 含 主题 上 的 随机 混合 ， 
其 中 每 一 个 主题 都 表示 成 词语 上 的 一 个 分 布 。 
基于 这 个 图 模型 的 主题 混合 分 布 可 以 写成 : 



















































































































































































p(Qz wl0p) =p(01O TL, pC;10) pw; |z;,8) 


在 这 个 公式 中 ， 可 以 看 到 我 们 为 每 一 个 词语 选择 了 主题 ， 所 以 乘积 是 从 1 
到 N。 


对 0 积分 ， 对 z 求 和 和， 文档 的 边缘 分 布 如 下 : 








7.5 隐 狄 利克 雷 分 布 


plwlop) = |pelod [PeilOpt 5) 


最 后 的 分 布 可 以 通过 











集合 的 分 布 “ 假 设 是 独立 同 分 布 的 )。 


取 单 个 文档 边 











力 缘分 布 的 积 得 到 ， 这 样 可 以 得 到 整个 文档 
这 里 ， 


集合 ， 


D 是 文档 集 [二 








p(D| ap) = TI [ee， Iod 六 用 (za |04 ) pOwa,; |zz0))aos 


现在 求解 的 主要 问题 是 ， 给 定 文档 


Ti 


斯 公式 ， 我 们 知道 : 

















p(0,2z 





不 幸 的 是 ， 








Iwap)= 





pwle Bb) 


由 于 分 母 上 的 归 一 化 因子 ， 




















LDA 的 文章 
把 复杂 的 贝 时 其 



































下 一 节 中 ， 我 们 会 简单 介 引 


推断 转换 为 简 
这 个 技术 是 贝 叶 斯 推断 的 第 三 种 方法 ， 














已 经 


个 可 





~ 





至 在 许多 








后 如 何 计算 9 和 z 的 后 验 概率 。j 


p(0,z,w |0,B) 











通过 贝 叶 


整个 公式 无 法 计算 。 所 以 ， 最 初 
助 了 一 种 叫 作 变 分 推断 〈Variational Inference) 的 技术 。 它 主要 是 


PT 这 是 一 个 可 以 解决 的 ( 凸 的 ) 优化 问题 。 





他 问题 中 得 到 ) 





泛 应 用 。 在 














变 分 推断 的 原 








束 本 习 。 


7.5.2 ee 
变 分 推断 的 主要 

些 参数 找 出 最 紧 下 的 下 

成 一 个 简 


相 旺 
‘人心 
边 
































界 。 实 际 操 





是 通过 建立 变 分 参数 索引 考虑 一 
芷 中 ， 这 个 思想 会 把 要 评估 的 复杂 分 布 近似 
单 的 分 布 ， 使 得 可 以 通过 凸 优 化 过 程 最 小 化 














， 最 后 展 眠 不 


系列 下 边界 ， 


个 R 语言 的 例子 来 结 








并 优化 这 

















三 
里 


的 度量 
通常 ， 图 模型 的 优良 i 
要 移 除 边 
在 隐 狄 利克 雷 
解 厢 后 得 到 的 图 
最 终 的 分 布 是 


XE: 























分 布 模型 中 ， 变 分 
模型 不 再 展示 0 和 五 之 


近似 包括 解 耦 变量 





问题 可 以 通过 





E 离 〈 或 者 分 布 

















时 来 简化 模型 。 




















解 厢 变 





在 实际 操作 











间 的 连接 ， 





之 间 的 其 他 


)。 我 们 需要 是 函数 的 原因 是 因为 凸 函 数 问题 有 全 局 最 小 值 。 


中 ， 我 们 需 


E09 和 实现 。 


而 是 包含 了 新 的 变 分 参数 。 








ql0z|y9)=4g(01D I L476 lo) 




















这 里 ;是 狄 利克 雷 变 量 ,，y 是 一 个 多 项 式 。 


























优化 问题 需要 计算 简化 分 布 与 真实 分 布 之 间 的 距离 或 者 差异 。 


这 个 任务 通常 可 以 使 用 两 个 分 布 之 间 的 Kullback-Leibler 差异 度 来 实现 。 





























此 优化 问题 就 是 找 出 (y, 8)， 满 足 : 


0 2 )= argmin,, D(q(0,z |y,9 )lp (90,z|w & Bb)) 


许多 优化 算法 都 可 以 解决 这 个 问题 。 








模型 参数 的 拟 合 可 以 再 次 使 用 期 望 最 大 化 算法 来 完成 。 但 是 ， 在 推断 中 ，E- 


步 又 难以 计算 ， 可 以 通过 这 个 问题 的 变 分 近似 来 解决 。 



































E- 步骤 包括 找 出 每 个 文档 变 分 参数 的 值 。 然 后 M- 步 又 包括 根据 参数 wk 和 


























最 大 化 对 数 似 然 率 的 下 边界 。 这 两 个 步骤 会 不 停 地 重复 ， 直 到 对 








收敛 。 


7.5.3 示例 














我 们 会 使 用 RtextTools 和 topicmodels 程序 包 。 第 二 个 程序 包 包 含 LDA 的 





实现 。 
首先 加 载 数据 : 


data (NYTimes) 
data <-NYTimes [samples (1:3100, size =1000, replace = F)] 


得 到 的 data.frame 包括 titles、subject 和 相应 的 topic.code。 
《纽约 时 报 》 的 标题 。 

















这 个 数据 集 包括 


然后 创建 算 阵 ， 便 于 程序 包 topicmodels 中 的 LDAO 函数 操作 : 














matrix <-create matrix(cbind(as.vector (data$Title),as. 
vector (data$Subject)), language="english,"removeNumbers=TRUE., 





stemWords=TRUE) 


接着 ， 建 立 主题 数量 。 这 可 以 通过 查看 原始 数据 集中 唯一 的 topic.code 得 到 。 




















这 个 数据 集 文 持 这 样 的 查询 任务 : 














7.5 隐 狄 利克 雷 分 布 


k <-length (unique (data$Topic.Code)) 

最 后 ， 运 行 带 有 变 分 期 望 最 大 化 的 学 习 算法 。 这 个 函数 也 提供 了 Gibbs 采样 
去 来 解决 同样 的 问题 : 

lda <-LDA (matrix, k) 

结果 是 带 有 27 个 主题 的 主题 模型 。 我 们 可 以 具体 看 一 下 。 返 回 的 对 象 是 一 
个 S4 对 象 ( 你 会 注意 到 我 们 在 R 语言 中 使 用 @ 记号 )。 
让 我 们 取 第 一 个 文档 ， 看 一 下 主题 上 的 后 验 分 布 : 























二 < 


方 

















At 





print (lda@gamma[l1,]) 

[1] O649978052 O004191364 OQ04191364 O004191364 O004191364 
0.004191364 0.004191364 0.004191364 0.004191364 0.004191364 0.004191364 
0.004191364 0.004191364 0.004191364 0.004191364 0.004191364 

[17] 0.004191364 0.004191364 0.115045483 0.004191364 0.004191364 
QO004191364 0.134383733 Os004191364 O004191364 OQ:004191364 ©@004191364 


我 们 看 到 ， 第 一 个 主题 有 较 高 的 概率 。 为 了 更 好 地 查看 结果 ， 可 以 画 出 图 
形 ， 如 图 7-17 所 示 
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lda@gammal1, ] 











Index 


图 7-17 





我 们 还 可 以 看 到 所 有 文档 上 的 平均 图 形 展示 ， 如 图 7-18 所 示 ， 代 码 如 下 : 








plot (colSums (lda@gamma) /nrow (lda@gamma), t ="h") 








colSums (lda@sgamma) /nrow (lda@gamma) 
0.032 0.034 0.036 0.038 0.040 0.042 
1 1 I i 1 1 








学 a 15 20 25 


Index 











图 7-18 
从 这 个 图 中 我 们 可 以 看 到 ， 主 题 上 的 分 布 明 显 不 均匀 ， 这 并 不 意外 。 


所 以 我 们 有 了 从 每 个 文档 中 抽取 最 大 概率 主题 的 方法 。 注 意 ， 以 第 一 个 文档 为 
例 ， 一 个 主题 的 概率 较 高 ， 同 时 也 出 现 了 另外 两 个 主题 。 其 余 的 主题 就 更 不 显著 了 。 


例如 ， 我 们 可 以 搜寻 带 有 两 个 以 上 的 概率 大 于 10% 的 主题 的 文档 数 


















































| 





中 





sum(sapply (1:nrow (lda@gamma), function(i) sum(lda@gamma[i, ] >0.1) >1)) 

我 们 从 1 000 个 文档 中 找 出 了 649 个 文档 。 但 是 ， 如 果 我 们 看 一 下 从 0% 到 
100% 的 每 10% 的 区 间 ， 这 个 数量 下 降 得 很 快 。 这 似乎 说 明 我 们 的 数据 集中 许多 
文档 都 只 属于 一 个 主题 。 图 7-19 给 出 了 这 个 变化 。 
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就 下 降 了 。 所 有 分 析 都 可 以 基于 这 个 图 开展 ， 





7.6 小 结 


例如 在 30% 的 时 候 ， 只 有 不 到 400 份 文档 还 拥有 至 少 两 个 主题 。 然 后 数量 


7.6 小 结 








例如 找 出 属于 一 个 主题 的 词语 等 。 











在 最 后 一 章 中 ， 我 们 看 到 了 更 先进 的 概率 图 模型 ， 使 用 标准 的 诸如 联结 树 算 
法 进行 求解 并 不 容易 。 本 章 首先 展示 了 图 模型 框架 依然 可 以 用 到 人 们 开发 的 具体 














算法 中 。 事 实 上 ， 在 LDA 模型 中 ， 变 分 问题 





























的 答案 是 在 观察 了 原始 LDA 的 图 模 








型 后 发 现 的 ， 通 过 转换 图 形 ， 生 成 原始 问题 更 好 的 近似 。 所 以 ， 尽 管 最 后 的 算法 
并 没有 像 联结 树 算法 那样 直接 使 用 图 模型 ， 但 是 答案 依然 来 自 于 图 模型 本 喘 。 


本 草 展示 了 概率 图 模型 的 强大 之 处 。 所 有 的 概率 和 新 的 模型 都 可 以 从 简单 的 



























































模型 创建 。 









































每 一 个 模型 实际 上 可 以 再 次 扩展 ， 像 专家 混合 模型 一 样 合并 它们 。 在 这 个 模 
型 中 ， 每 一 个 专家 函数 可 以 被 男 外 的 专家 混合 模型 蔡 代 ， 进 而 构造 专家 层级 混合 















































模型 。 这 是 决策 树 的 概率 版 本 ， 但 是 添加 了 3 














F 滑 转换 和 处 理 不 确定 性 的 能 力 。 











我 们 已 经 介绍 完了 概率 图 模型 的 知识 。 但 是 ， 这 只 是 一 个 开始 ， 我 们 鼓励 读 























者 去 发 现 所 有 的 图 模型 R 语言 程序 包 ， 并 编写 自己 的 代码 。 学 习 了 本 书 中 的 图 模型 
和 原生 方法 ， 我 们 可 以 越过 标准 模型 和 解决 方案 。 唯 一 的 限制 就 是 自己 的 想象 力 。 
























































附录 


参考 文献 


下 面 的 参考 文献 都 是 在 本 书 的 编写 过 程 中 用 到 的 。 我 们 鼓励 想 对 概率 图 模型 
和 贝 叶 斯 建 模 有 进一步 了 解 的 读者 阅读 这 些 文献 。 


本 书 中 的 许多 例子 和 解释 都 是 从 这 些 文献 中 得 到 启发 。 


























有 关 贝 叶 斯 历史 的 书籍 


国 Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B, Vehtari, A., and Rubin, 
D.B.. Bayesian Data Analysis, 3rd Edition. CRC Press, 2013 。 这 本 关于 贝 叶 
斯 建 模 的 参考 书 从 最 基本 的 概念 介绍 到 最 前 沿 的 技术 ， 并 关注 建 模 和 计 

国 Robert C.P.. The Bayesian Choice: From Decision-Theoretic Foundations to 
Computational Implementation. Springer 2007。 这 本 书 更 加 理论 ， 但 是 给 

出 了 贝 叶 斯 范式 许多 概念 的 严格 推导 。 

国 McGrayne, Sharon Bertsch. The Theory That Would Not Die. Yale University 
Press, 2011。 这 本 书 介绍 了 贝 叶 斯 规则 如 何 破 解 英 格 玛 密码 ， 帮 助 击 沉 俄 

国 潜艇 ， 取 得 了 两 个 世纪 以 来 的 伟大 胜利 。 从 托马斯 贝 叶 斯 的 第 一 篇 文 

章 到 21 世纪 的 最 新 进展 ， 这 本 书 都 做 了 生动 的 历史 回 
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有 关机 器 学 习 的 书籍 
国 Murphy, K.P.. Machine Learning: A Probabilistic Perspective. The MIT Press， 
2012。 这 本 书 介 绍 了 机 器 学 习 的 很 多 算法 。 它 不 仅仅 介绍 了 图 模型 和 贝 
叶 斯 模型 。 这 是 最 好 的 参考 书 之 一 。 
国 Bishop, C.M. Pattern Recognition and Machine Learning. Springer, 2007。 这 
是 有 关机 器 学 习 最 好 的 书籍 之 一 ， 涵 盖 了 许多 方面 ， 并 介绍 了 每 一 个 算 
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法 的 许多 实现 细节 。 

Barber, D.. Bayesian Reasoning and Machine Learning. Cambridge University 
Press, 2012。 这 是 另外 一 本 不 错 的 书籍 ， 介 绍 了 机 器 学 习 的 许多 内 容 ， 特 
别 介绍 了 贝 叶 斯 模型 。 

Robert, C.P.. Monte Carlo Methods in Statistics. 2009。 (http://arxiv.org/ 
pdf/0909.0389.pdf) 这 是 有 关 蒙 特 卡 洛 方法 的 很 好 的 文章 ， 偏 教学 。 

Koller, D. and Friedman, N.. Probabilistic Graphical Models: Principles and 
Techniques. The MIT Press, 2009。 这 是 有 关 概 率 图 模型 的 最 完整 、 最 前 沿 
的 书籍 。 它 介绍 了 该 领域 的 所 有 内 容 。 这 本 书 内 容 很 丰富 ， 给 出 了 有 关 概 
率 图 模型 的 许多 算法 细节 和 有 用 的 展示 。 它 可 能 是 概率 图 模型 最 好 的 书籍 。 
Casella, G. and Berger, R.L.. Statistical Inference, 2nd Edition. Duxbury, 
2002。 这 是 一 本 经 典 统计 学 的 参考 书 ， 有 许多 详实 的 阐述 ， 每 个 做 统计 
的 人 都 应 该 读 一 读 。 

Hastie, T., Tibshirani, R., and Friedman, J.. The Elements of Statistical 





























































































































Learning: Data Mining, Inference, and Prediction. Springer 2013。 这 是 一 本 
畅销 书 ， 从 统计 的 角度 介绍 了 机 器 学 习 的 最 重要 的 概念 。 





Jacobs, R.A., Jordan, M.L Nowlan, S.J., and Hinton, G.E. Adaptive mixtures of 
local experts. 1991 in Neural Computation, 3, 79~87。 这 篇 文章 是 关于 专家 
混合 的 ， 用 在 第 7 章 概率 混合 模型 中 。 

Blei, David M., Ng, Andrew, Y, Jordan, Michael, I. Latent Dirichlet Allocation. 
January 2003, Journal of Machine Learning Research 3 (4~5), p993~1022。 
这 是 有 关 LDA 模型 的 参考 文章 ， 用 在 第 7 章 概 率 混合 模型 中 。 













































































概率 图 模型 
基于 R 语 言 


概率 图 模型 (PGM，, 又 称 图 模型 ) 是 概率 
论 和 图 论 的 结合 。 通常 , 概率 图 模型 使 用 基于 
图 的 表示 法 。 常用 的 两 种 表示 法 是 贝 叶 斯 网 络 
和 马尔 科 夫 网 络 。 R 语 言 中 有 许多 程序 包 可 以 
实现 图 模型 。 

本 书 首先 介绍 如 何 把 经 典 的 统计 模型 转 
换 成 概率 图 模型 , 然后 探讨 如 何在 图 模型 上 执 站 
行 精确 推断 , 如 何 执行 贝 叶 斯 线性 回归 , 并 展 
示 了 在 预测 时 采用 概率 视角 的 好 处 。 同时 , 本 
书 还 介绍 了 许多 RR 程序 包 的 使 用 , 可 以 帮助 读 
者 执行 推断 , 并 掌握 民 语 言 的 实现 方法 。 








最 后 本 书 给 出 了 机 器 学 习 的 应 用 , 包括 大 
数据 中 的 聚 类 问题 和 隐 含 信息 的 发 现 , 以 及 两 站 


个 可 以 缩小 问题 规模 的 重要 方法 一 PCA 和 
ICA。 这 些 知 识 对 许多 领域 都 有 直接 的 影响 。 


本 书 适用 于 任何 处 理 大 量 数据 并 从 中 得 出 结论 的 读者 , 特别 是 数据 充满 噪声 或 者 不 确定 性 的 时 候 。 数 
据 科学 家 、 机 器 学 习 爱 好 者 、 工 程 师 和 对 机 器 学 习 最 新 技术 感 兴趣 的 人 都 会 从 概率 图 模型 中 发 现 乐 趣 。 
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